智能体，从 ReAct 到多智能体

2025/03/12

This post was created with 2% of AI.

Agent （代理）具有非常“广泛”的概念，在深度学习领域，Agent 指的是一个能够推理、规划和与其环境交互的人工智能实体（模型）。

Agent 的概念最初来源于哲学，是具有行动能力的实体。

在 Marvin Minsky 老爷子的 Society of Mind 理论中，定义 Agent 为一个自主、独立运行的计算或认知实体，它具备感知、决策和执行任务的能力。每个Agent 都有自己的目标、行为和策略，并能与其他 Agent 交互和协作。

想象一下未来，你的智能管家 Alfred 收到一个指令：帮我买一杯咖啡。Alfred 收到指令，然后规划出一系列行动：

走到厨房
使用咖啡机煮咖啡
把煮好的咖啡端回来

接着，它必须执行这些动作。如果它发现厨房没有咖啡机，还可能会主动前往仓库寻找或者在购物网站上购买。最终，无论采取怎样的措施，它给你端来了一杯咖啡。

你的智能管家就是一个 Agent。

基于大语言模型的 Agent#

在大语言模型兴起之前，Agent 有很多实现思路：

基于符号逻辑
基于 RL （强化学习）
基于迁移学习
...

随着大预言模型能力的提升，大家发现大语言模型有强大的学习、推理和规划能力，能够处理更加复杂、抽象的任务，似乎让大家看到了大语言模型在 AGI（通用人工智能）中的巨大潜力。

在基于大语言模型的 Agent 架构中，大语言模型通常作为 Agent 的大脑。把它想象成人类关键，它具有：

大脑 LLM 作为 Agent 的大脑，负责处理信息、做出决策和规划行动。
身体 Agent 的功能模块专门处理特定类型的信息或执行特定任务；还包括“身体的其他感知器官”，比如文本、语音、听觉等都依赖外部的能力或工具，通过它们来执行决策（动作）、提交执行反馈。

当前 Agent 的流行架构#

在 LLM Powered Autonomous Agents 这篇内容中，将 Agent System 的设计更具体地拆分为三个构件：

Planning#

规划（Planning）的任务主要是子目标拆解（Task Decomposition）、反思和优化（Reflection and Refinement）。

Task Decomposition 将任务拆解成更小、更容易管理的子目标，从而实现复杂任务的高效处理。

Reflection and Refinement 让 Agent 改进过去的决策和错误，从错误中学习来优化未来的步骤。

Memory#

记忆模块（Memory）可被定义为上一步获取、存储随后被提取的过程。参考人的记忆模式，Agent 的记忆可分为：

感官记忆：多模态输入（文本、音频、视频）的嵌入表示。
短期记忆：上下文学习
长期记忆：外部向量存储结构，Agent 可随时快速召回

Tool Use#

使用工具增强的大语言模型（Tool Augmented Language Model），使其能够使用外部工具。ChatGPT 的 Plugins 和 function calling 就是 LLM 增强工具使用能力的例子。

Agent 可以通过工具（Tools）来执行规划的动作，并进一步将工作反馈提交给大语言模型。

Anthropic 推出的 MCP 协议提供了一套规范的接口定义，让外部工具能够方便地和大语言模型交互。

Agent 的基本实现原理#

ReAct（Reason + Act）)是一种流行的通用 Agent 架构，它要求大语言模型以交错的方式进行推理和特定任务的行动，实现推理和行动的协同。

用一个简单的公式来表达：

agent ≈ model + tools, within a for-loop + environment

或者一个更形象的图形化表达：

当使用工具增强的大语言模型作为 Agent 大脑，它的流程如下：

（1）LLMs 接收用户指令 用户指令可以是直接文本输入，还可以是图片、音频、或者通过 @ 等方式引用的外部资料。这些内容会直接作为提示词输入到 LLM 中。

（2）LLMs 在内部进行推理和规划，生成要执行的具体步骤 LLM 推理用户指令，生成下一步具体的操作。根据具体指令，这一阶段可以是单纯的文本输出（类似问答）或者工具使用，更智能的 Agent，还会对用户进一步询问。

这一阶段，LLM 自行推理，自主规划下一步操作。

（3）使用工具完成要执行的具体步骤 对于 ChatGPT，LLMs 会通过 Function Calling API 返回下一步操作要使用到的工具，比如网页搜索、阅读文件等等。

此时 LLMs 会等待执行操作的返回结果。

（4）LLMs 重新规划 根据上一步的返回结果，LLMs 进行重新任务规划。如果 LLMs 认为任务可以结束，则终止这一循环过程。

这一过程通过伪代码，大致可以如下实现：

// 1. 让 LLMs 知道可使用的工具，可以使用 Function Callling 的 Tool Use 定义
const tools = [...];

// 2. 提交用户指令给 LLMs
let completion = await openai.chat.completions.create({
    model: 'gpt-4o-mini',
    store: true,
    tools: tools,
    messages: [
    { role: 'system', content: 'You are an agent called Alfred'},
    { role: 'user', content: 'Bring me a cup of coffee.'}],
});

// 3. LLMs 进行指令推理（内部进行），返回 Tool Use,
let feedBack: string = '';
completion.choices.map(content => {
	if (content.type === 'tool_use') {
		// 4. 执行操作，并获取反馈
		const feedBack = await findCoffeeMachine();
	}
})

// 5. 将反馈提交给 LLMs 进行后续推理规划
let completion = await openai.chat.completions.create({
    model: 'gpt-4o-mini',
    store: true,
    tools: tools,
    messages: [
    { role: 'system', content: 'You are an agent called Alfred'},
    { role: 'user', content: 'Bring me a cup of coffee.'}, 
    { role: 'assistant', content: 'I need xxxx'},
    { role: 'assistant', content: feedBack }
    ],
});

在基础的 ReAct 架构下，社区还有一些增强的架构：

Plan-And-Execute#

这个方案核心主要引入了 Plan（ToDo List，规划列表），将整个任务划分成更小的任务。子任务可以循环调用多次工具来完成，这样可以避免每次工具调用都跟 LLMs 进行交互。

一旦子任务完成，任务反馈结果会提交给 LLMs 进行重新规划。

BabyAGI 就是这个架构的一个典型 Case。

任务依赖的增强架构#

将复杂任务划分为多个子任务，多个子任务之间存在相互依赖关系是无法避免的。

ReWOO 架构通过串行工作流的方式减少工具与 LLMs 的交互，大致的逻辑是 LLMs 在分解依赖任务之后，通过一个单独的 Worker 节点串行处理任务（上一个任务的输出变成下一个任务的输入），最后把最终结果提交给 LLMs。

LLMCompiler 是通过是试图通过依赖图谱的方式，并行处理子任务，以提高 Agent 执行的速度。

Agent Case Studies#

从开源的一些项目，我们一窥端倪 Agent 具体是怎么实现的。

Coding Agent - Cline#

Cline 是一个非常典型的 ReAct 架构的 Coding Agent。它的大致实现流程如下图所示：

在编程任务启动时，Cline 会收集系统提示词、用户自定义规则、用户输入和环境信息作为上下文（Memory）提交给 LLMs。Cline 要求 LLMs 通过 <thinking> 进行推理规划，然后输出 Tool Use 指令。Cline 有两类工具，一类是内置工具，比如执行命令行指令、阅读代码文件、搜索文件等等，另一类则是通过 MCP 由用户自定义扩展。

工具执行的结果会作为上下文再次提交个 LLMs 进行下一步推理，如此往复，直至 LLMs 认为任务处理完毕。

在 Cline 的实现中，上下文作为 Agent 的短期记忆而存在。Plan 过程则是要求 LLMs 在支持任务前使用 CoT 进行推理。

RL 增强的 Agent#

除了在应用层通过增强工具的能力来提升 Agent，LLMs 厂商（比如 ChatGPT/Cluade 3.7）试图通过强化学习（RL）和推理增强特定领域的 Agent。

比如，相比于通用 LLMs + 工具的 DeepResearch 实现，ChatGPT 的 DeepResearch 和 Operator 针对特定的数据集进行了进一步的训练。

尤其是通用 LLMs 在工具调用的失败率很高，为解决这一问题，RL 增强的 Agent 也会变成一个很行的方案。

多智能体#

多智能体（Multi-Agent）主要是为复杂任务而设计的，如果将单个 Agent 比喻成一种角色，那么多智能体就是能力不同的多种角色。多智能体系统就是模拟分工合作的复杂现实环境，多个自主智能体共同参与规划、讨论和决策。多智能体可以提高系统的模块化能力、可扩展和鲁棒性。

MetaGPT 就是一个可参考的多智能体的设计，它模拟真实的软件开发过程，涉及的角色包括产品经理、架构师、项目经理、开发和测试。

Agent 和工作流#

「Agency 是 Agent 的内在特质」

Agent 和 workflow（工作流）一定程度上都具有“代理”的特征，在 Cluade 中，这两者可统称为 Agentic System，但存在具体区分：

Workflow - LLM 和工具通过预先定义的路径进行编排
Agent - LLM 自主设计流程和使用工具的系统

一个典型的基于 Prompt Chaining 的工作流：

工作流通常基于自动化系统，LLM 作为 Play 中的一环参与到流程中。而 Agent 是一个将 LLM 作为大脑的自动系统，LLM 主动参与推理和规划。

当我们说 Agency 是 Agent 的内在特质，是说采取主动、做出决定以及控制其行为和环境的能力，积极主动而非被动。强大自主的 Agent 会设定目标并充满信心地追求目标，即使面对障碍也是如此。