AI Agent 视觉指南：通过 60 张可视化图表透视智能体

咨询

会员

	图数据库与知识图谱
	8月28日-29日北京+线上

	MBSE从理论方法到工作实践
	8月26-27日北京+线上

	基于 UML 和EA进行分析设计
	9月9日-10日北京+线上

AI Agent 视觉指南：通过 60 张可视化图表透视智能体

作者：邵猛

198 次浏览

6 次

2025-7-24

编辑推荐:

本文主要介绍了AI Agent 视觉指南相关内容。希望对你的学习有帮助。
本文来自于微信公众号Hello Tech技术派，由火龙果软件Linda编辑，推荐。

LLM Agents 引言

LLM Agents 正变得越来越普遍，似乎正在取代我们所熟悉的“常规”对话式 LLM。这些令人惊叹的功能并非轻而易举就能实现，需要多个组件协同工作。

在作者 Maarten Grootendorst 的文章「A Visual Guide to LLM Agents」中，他通过 60 多个 LLM 可视化图表展示，带领大家一起探索 LLM Agents 的领域、它们的主要组件，并深入了解多智能体框架。

今天咱们先一起阅读全文，有整体的理解，再针对不同部分深入解读。

什么是 LLM Agents？

要理解 LLM Agents，首先让我们探讨大型语言模型（LLM）的基本功能。传统上，LLM 仅执行下一个标记预测。

通过连续采样多个标记，我们可以模拟对话，并让 LLM 为我们的查询提供更详尽的答案。

然而，当我们继续“对话”时，任何 LLM 都会暴露其主要缺点之一：它不记得对话！

LLM 还经常在许多其他任务上失败，例如基本的数学运算，如乘法和除法。

这是否意味着 LLM 很糟糕？绝对不是！ LLM 无需在所有方面都表现出色，因为我们可以通过外部工具、记忆和检索系统弥补它们的不足。

通过这些外部系统，LLM 的功能得以增强。Anthropic 将此称为“增强型 LLM”。

例如，面对数学问题时，LLM 可能会决定使用适当的工具，如计算器。

那么，这个“增强型 LLM”就是智能体吗？不，也不完全是……

让我们从智能体的正式定义开始：

“智能体是任何可以通过传感器感知其环境并通过执行器对该环境采取行动的事物。”

— Russell & Norvig，《人工智能：现代方法》（2016）

智能体与其环境互动，通常由几个关键组件组成：

环境

：智能体与之互动的世界。

传感器

：用于观察环境的工具。

执行器

：用于与环境互动的工具。

效应器

：决定如何从观察到行动的“大脑”或规则。

这个框架适用于各种与不同环境互动的智能体——如物理空间中的机器人或软件系统中的 AI 智能体。

我们可以稍微泛化这个框架以适应“增强型 LLM”：

使用“增强型”LLM，智能体通过文本输入观察环境（因为 LLM 通常是基于文本的模型），并使用工具（如网络搜索）执行行动。

为了决定采取哪些行动，LLM 智能体依赖于一个重要组件：规划能力。这要求 LLM 能够“推理”和“思考”，通常通过思维链等技术。

这种规划行为使智能体能够：

理解情况

（通过 LLM），

规划下一步

（规划），

采取行动

（工具），

跟踪已采取的行动

（记忆）。

根据系统的不同，LLM 智能体可以展示不同程度的自主性。一些人认为，LLM 越能决定系统的行为，系统就越“智能体化”。

在接下来的部分中，我们将通过 LLM 智能体的三个主要组件——记忆、工具和规划——探索自主行为。

记忆

LLM 本质上是健忘的系统——它们在互动过程中不会自然地保留信息。

例如，如果你向 LLM 提出一个问题，然后再提出另一个问题，它不会记得第一个问题。

我们将记忆分为两类：短期记忆和长期记忆。

短期记忆

也称为工作记忆，它充当（近）即时上下文的缓冲区，包括 LLM 智能体最近采取的行动。

启用短期记忆的最简单方法是使用模型的上下文窗口，即 LLM 一次可以处理的标记数量。

上下文窗口通常从 8,192 个标记开始，并可扩展到数十万个！

较大的上下文窗口可以将完整的对话历史记录作为输入提示的一部分存储。

只要历史记录在窗口内，这种方法可以有效地模拟记忆。然而，这与其说是真正的记忆，不如说是“告诉”LLM 对话的内容。

对于上下文窗口较小的模型，或对话增长过大时，我们可以使用另一个 LLM 总结迄今为止的对话。

持续总结可以保持对话规模较小，减少标记数量，同时保留关键信息。

长期记忆

长期记忆涉及在较长时间内保留智能体的过去行动空间——可能涉及数十或数百个步骤。

一种常见技术是将所有先前的互动、行动和对话存储在外部向量数据库中。

对话首先被嵌入到捕捉其含义的数值表示中。

对于新的提示，系统会嵌入它，并通过比较嵌入从数据库中检索最相关的信息。

这种方法被称为检索增强生成（RAG）。

长期记忆还可以跨越会话。例如，你可能希望 LLM 智能体记住之前会话中的研究。

不同类型的信息与不同类型的记忆相关：

语言智能体的认知架构

论文确定了与 LLM 智能体相关的四种记忆类型：

这种区分有助于设计智能体框架——例如，语义记忆可能与工作记忆分开存储。

语义记忆

：关于世界的事实。

情景记忆

：过去的经历。

程序记忆

：如何做事情。

工作记忆

：当前上下文。

工具

工具使 LLM 能够与外部环境互动（如数据库）或使用外部应用程序（如自定义代码）。

工具有两个主要用途：

获取数据

：检索最新信息。

采取行动

：执行任务，如安排会议或订购食物。

要使用工具，LLM 必须生成与工具的API匹配的文本，通常采用JSON 格式，以便与代码解释器轻松集成。

这不仅限于 JSON；工具也可以通过函数调用（如乘法函数）直接在代码中调用。

许多当前的 LLM 可以通过适当的提示使用工具。一种更可靠的方法是微调 LLM 以使用工具。

工具使用可以遵循：

在这种情况下，LLM 智能体作为LLM 调用序列运行，中间输出反馈以供进一步处理。

严格智能体框架中的固定序列，或自主选择，LLM 决定使用哪个工具以及何时使用。

Toolformer

工具使用增强了 LLM 的功能并弥补了其弱点，近年来引发了大量研究。

大型语言模型的工具学习：调查

论文强调了这一日益增长的关注，预测更强大的智能体化 LLM。

Toolformer

是早期创新之一，训练 LLM 决定调用哪些 API 以及如何调用。

它使用 [ 和 ] 标记来标记工具调用的开始和结束。

例如：对于“5 乘以 3 是多少？”，它生成标记直到 [，调用工具，附加结果（例如 15），并在 ] 后继续。

训练涉及精心策划的工具使用示例数据集，经过筛选以确保正确性和有效性。

自 Toolformer 以来，出现了 ToolLLM（数千种工具）和 Gorilla（相关工具检索）等进展。到 2025 年初，大多数 LLM 都经过训练，可以通过 JSON 调用工具。

模型上下文协议（MCP）

工具对智能体框架至关重要，但管理多样化的 API 具有挑战性：

工具必须手动跟踪、描述（包括 JSON 模式），并在 API 更改时更新。

Anthropic 的模型上下文协议（MCP）标准化了 API 访问（例如天气应用或 GitHub），具有三个组件：

MCP 主机

：在 LLM 应用程序（如 Cursor）中管理连接。

MCP 客户端

：与服务器保持 1:1 连接。

MCP 服务器

：提供上下文、工具和功能。

例如：总结最新的 5 个 GitHub 提交：

主机查询服务器以获取可用工具。

LLM 选择工具，通过主机发送请求，并接收结果。

LLM 将结果解析为答案。

MCP 通过启用跨 LLM 应用程序可重用的服务器，简化了工具创建。

规划

工具提升了 LLM 的能力，但在智能体系统中，LLM 如何决定使用哪个工具以及何时使用？这就是规划的作用。

规划涉及将任务分解为可行动的步骤，使 LLM 能够反思过去的行动并根据需要调整计划。

推理

规划需要复杂的推理行为，LLM 在行动前“思考”。

“推理”LLM 将答案分解为结构化步骤，通过以下方式实现：

微调

：训练 LLM 进行推理。

提示工程

：通过示例或指令引导行为。

思维链（CoT）

提供推理示例（少样本提示）或使用简单的“让我们一步步思考”（零样本提示）。

训练可以涉及包含类似思考示例的数据集或奖励引导的发现（例如 DeepSeek-R1）。

推理与行动

仅推理不足以确保可行动的规划。ReAct（推理与行动）结合了两者：

它使用包含三个步骤的提示：

思考

：对情况的推理。

行动

：执行工具或步骤。

观察

：对结果的推理。

LLM 循环执行这些步骤，直到返回结果，增强了自主性，优于固定步骤的智能体。

反思

即使使用 ReAct，也会发生失败。反思改善性能：

Reflexion

使用口头强化，包含三个角色：

行动者

：执行行动（例如通过 CoT 或 ReAct）。

评估者

：对输出评分。

自我反思

：分析行动和评分，辅助以记忆（短期用于行动，长期用于反思）。

SELF-REFINE

在一个 LLM 内迭代输出细化和反馈，类似于强化学习。

多智能体协作

单智能体面临挑战：工具过多使选择复杂，上下文变得笨重，任务可能需要专业化。多智能体系统解决了这一点：

多个智能体（每个都有工具、记忆和规划）相互以及与环境互动。图片

主管

监督专业智能体，管理通信和任务分配。

核心组件：

智能体初始化

：创建专业智能体。

智能体编排

：协调它们的努力。

人类行为的互动模拟

论文生成式智能体：人类行为的互动模拟介绍了生成式智能体：

这些智能体模拟可信的人类行为，具有独特的个人资料。

每个智能体都有记忆、规划和反思模块（类似于 ReAct/Reflexion）。

记忆

存储事件、计划和反思，按新近性、重要性和相关性检索。

智能体自由互动，编排极少，由人类评估行为的逼真度。

模块化框架

AutoGen、MetaGPT 和 CAMEL 等多智能体框架在通信上有所不同：

CAMEL

：使用 AI 用户和 AI 助手角色进行协作问题解决。

所有框架都强调协作通信，允许智能体动态更新目标和步骤。

这些框架最近呈爆炸性增长，预示着 2025 年将是一个激动人心的年份，随着它们的成熟和发展。

198 次浏览

6

相关文章

基于图卷积网络的图深度学习

自动驾驶中的3D目标检测

工业机器人控制系统架构介绍

项目实战：如何构建知识图谱

相关文档

5G人工智能物联网的典型应用

深度学习在自动驾驶中的应用

图神经网络在交叉学科领域的应用研究

无人机系统原理

相关课程

人工智能、机器学习&TensorFlow

机器人软件开发技术

人工智能，机器学习和深度学习

图像处理算法方法与实践

最新活动计划

大模型RAG、MCP与智能体 8-14[厦门]

图数据库与知识图谱 8-28[北京]

OCSMP认证：OCSMP-MBF 8-29[北京]

基于 UML 和EA进行分析设计 9-9[北京]

软件架构设计方法、案例实践 9-24[北京]

需求分析师能力培养 10-30[北京]

最新文章

AIGC技术与应用全解析

详解知识图谱的构建全流程

大模型升级与设计之道

自动驾驶和辅助驾驶系统

ROS机器人操作系统底层原理

最新课程

人工智能，机器学习和深度学习

人工智能与机器学习应用实战

人工智能-图像处理和识别

人工智能、机器学习& TensorFlow+Keras框架实践

人工智能+Python＋大数据

成功案例

某综合性科研机构人工智能与机器学习

某银行人工智能+Python+大数据

北京人工智能、机器学习& TensorFlow

某领先数字地图提供商 Python数据分析

中国移动人工智能、机器学习和深度学习