多智能体协作是什么？1 篇讲透 Multi-Agent

一句话说清多智能体协作是什么

多智能体协作（Multi-Agent）就是让多个 AI Agent 分工合作完成一件事，每个 Agent 只管自己擅长的那一块，需要换人时把活儿交接过去。

和「一个全能 Agent 包打天下」相反，多智能体的思路是「专业的人干专业的事」。客户进来先找前台分诊，分诊员看是销售问题就转给销售 Agent，看是售后就转给售后 Agent——和你打 10086 找人工的体验几乎一样。

OpenAI 在 Cookbook 里把这种模式叫做 Orchestrating Agents（协作式智能体），并给出了一套最简实现：每个 Agent 是一个「指令 + 工具」的小封装，转接通过函数调用实现，全程不需要复杂的状态机。

用一个生活场景理解

假设你周末想去三亚玩 5 天，丢给一个 AI 助手：“帮我安排一下”。

如果只有 1 个全能 Agent，它得自己同时管：查航班、订酒店、做行程、订餐厅、查潜水店、买保险……结果就是它每件事都做半吊子，价格漏比、行程冲突、餐厅订到不营业的。

换成多智能体协作：

总调度 Agent：理解你的整体需求，决定派谁
交通 Agent：只管比价、订机票、规划机场往返
酒店 Agent：只管查评分、订房、确认免费取消政策
行程 Agent：只管做每日规划、查天气、订门票
预算 Agent：盯总账，超预算时拉回来

每个 Agent 只看自己那一摊，但能互相把活儿交出去。结果是每件事都更靠谱，整体更不容易翻车。

这就是多智能体协作 —— 不是一个 AI 干完所有事，而是一支 AI 团队互相协作。

多智能体协作的 3 种核心模式

OpenAI Cookbook 把多智能体的协作方式归纳成几种模式。理解这 3 种，你基本就懂了 90% 的多 Agent 系统怎么搭。

1. 分诊模式（Triage / Routing）

最常见也最直观的模式。

一个总入口 Agent（Triage Agent）接收用户请求
它不干活，只判断该转给谁
判断完调用对应的转接函数，比如 transfer_to_sales_agent()
后续对话由销售 Agent 接管

适合场景：客服系统、内部 IT 助手、电商售前售后。任何「请求种类多、每种处理逻辑差很多」的场景都用这个。

2. 接力模式（Handoffs）

一件事按顺序分多步，每一步交给不同的 Agent 完成。前一个 Agent 干完把上下文连带结果一起交给下一个。

OpenAI Cookbook 里有个典型例子：用户上传简历 + 说明想做的工作，然后：

简历提取 Agent：把简历结构化成 JSON
职业分析 Agent：拿提取结果对比目标岗位需求，找差距
课程推荐 Agent：根据差距推荐学习资源

每个 Agent 只对自己那一步负责，下一个 Agent 拿到上一个的输出当输入。流水线作业，可靠且好调试。

3. 主管模式（Manager Pattern）

一个 Manager Agent 当总调度，下面挂多个 Worker Agent。Manager 负责拆任务、分发、收集结果、整合。

适合场景：复杂的研究/写作任务。比如「写一份某行业 2026 年趋势报告」，Manager 拆成「市场数据 / 政策环境 / 头部玩家 / 技术演进」4 个子任务派给 4 个 Worker，最后自己把结果合成一篇完整报告。

多智能体协作和单 Agent 啥区别

一张表讲清楚：

维度	单 Agent	多智能体协作
结构	一个大模型 + 一堆工具	多个小 Agent + 转接机制
上下文窗口	容易爆，工具一多就乱	每个 Agent 只看自己那部分，干净
调试难度	错了不知道哪一步出问题	哪个 Agent 出错直接定位
维护成本	改一个工具影响全局	每个 Agent 独立迭代
适合场景	简单任务、单一领域	复杂任务、多领域、长流程
失败模式	一个环节崩全盘崩	局部失败可重试或转人工

简单记：如果你的 Agent 现在能干的活超过 10 件事 / 工具超过 8 个 / 提示词写了 200 行，就该拆成多智能体了。

多智能体怎么把活儿「交出去」

最关键的工程问题是：A Agent 怎么把对话和上下文交给 B Agent？OpenAI Cookbook 的解法非常优雅，记住 2 个关键点：

1. 转接其实是一个「特殊的工具」

每个 Agent 的工具列表里，除了正常工具（查数据库、发邮件等），还有几个长这样的工具：

transfer_to_sales_agent()
transfer_to_support_agent()
transfer_to_billing_agent()

这些工具不真的「执行」什么动作，它们的返回值是一个 Agent 对象。

2. 系统识别「返回是 Agent」就切人

主循环检测到某个工具返回了 Agent 对象，立刻把「当前 Agent」换成新的，然后把刚才的对话历史完整传过去。新 Agent 拿到完整上下文，可以接着干。

整个机制不需要状态机、不需要消息队列，只是「函数调用 + 简单循环」。这也是为啥 OpenAI 强调这套方案的优势是简单、稳健、易扩展。

一个判断「我的需求要不要上多 Agent」的 prompt

不是所有事都需要多智能体。下面这个 prompt 帮你 30 秒判断：

📋 Prompt 模板

你是一位 AI Agent 架构顾问。我会描述一个想用 AI Agent 解决的任务，请按以下 5 个维度判断我应该用「单 Agent」还是「多智能体协作」：

任务种类：处理的请求是同一类（如全是写邮件），还是多类（销售/售后/技术都有）
流程长度：一次任务大概几步完成（少于 5 步偏单 Agent，10 步以上偏多 Agent）
工具数量：需要接的工具数量（少于 8 个偏单 Agent，10 个以上偏多 Agent）
失败影响：一个环节失败是局部出错还是全盘崩盘
团队规模：是 1 人维护还是多人协作（多人协作偏多 Agent，每人维护一个子 Agent）

最后给出明确建议：单 Agent / 多智能体（分诊模式 / 接力模式 / 主管模式）/ 暂时还不需要 Agent。

我的任务是：[这里描述你的任务]

把方括号里换成你的实际场景，发给 ChatGPT 或 Claude 都能得到判断。

多智能体协作的 3 个常见坑

坑 1：拆得太细，沟通成本爆炸

新手一兴奋就把任务拆成 10 个 Agent，每个 Agent 只干 1 件小事。结果转接来转接去，上下文反复传，token 成本翻 5 倍，速度变 3 倍慢。经验值：一个完整流程 3-5 个 Agent 最合适，超过 7 个就该重新审视。

坑 2：转接没人兜底

A Agent 转给 B 时如果 B 处理不了，没设计兜底就会陷入「我转你你转我」的死循环。最佳实践：

每个 Agent 都设置一个「转回总调度」的工具
总调度 Agent 有「转人工 / 放弃任务」的最后兜底
加循环次数上限（比如最多转接 5 次）

坑 3：上下文传得不干净

新 Agent 拿到的上下文里如果带着上一个 Agent 的角色设定、内部思考、工具调用 log，会被干扰。最佳实践是：

转接时只传「用户原始需求 + 中间产出的关键事实」
上一个 Agent 的角色提示词不要带过去
内部工具调用细节可以压缩成一句摘要

国内能用多智能体协作吗？

完全能用，而且选择不少。

海外平台（需要科学上网）：

OpenAI Agents SDK：原生支持 handoffs 机制，文档最完整
LangGraph（LangChain 出品）：业界用得最多的多 Agent 编排框架
CrewAI：专为多 Agent 协作设计的开源框架
AutoGen（微软出品）：擅长「多 Agent 互相对话」场景

国产平台（直接能用）：

扣子 Coze：字节跳动出品，可视化拖拽多 Agent 工作流，入门最快
Dify：开源可私有部署，支持多 Agent 编排
百度千帆 AppBuilder：百度生态，To B 友好

详细对比看国产 AI Agent 平台盘点。

下一步

读完这篇你已经知道多智能体协作是啥、有几种模式、和单 Agent 啥区别。接着值得看的：

AI Agent 是什么？1 篇看懂智能体的 5 大组件：理解单 Agent 的基础
Agent 工作流是什么？从触发到执行全过程：搞懂 Agent 一步一步怎么跑
AI Agent 的 4 大类型：了解不同 Agent 的定位
MCP 是什么？让 AI 接万物的协议：多 Agent 系统的工具层底座
AI 智能体完全指南：Pillar 长文

常见问题

Q：多智能体协作就是把一个大 prompt 拆成几段吗？ A：不是。多智能体的核心是每个 Agent 有独立的指令、工具、模型，并且能彼此转接对话。只是把 prompt 拆段那叫 chain of thought，不算多 Agent。

Q：多智能体一定比单 Agent 更强吗？ A：不一定。简单任务用单 Agent 又快又便宜。多智能体的优势在「复杂、多领域、长流程」场景，简单场景反而会因为转接增加延迟和成本。

Q：每个 Agent 都得用 GPT-5 / Claude Opus 这种顶配模型吗？ A：不需要。分诊 Agent 用便宜模型即可；只有需要复杂推理的核心 Agent 才用顶配。多智能体一个隐藏好处是可以「按需配模型」省钱。

Q：多 Agent 之间能并行吗？ A：能。主管模式经常并行：Manager 把任务拆成 4 块同时派给 4 个 Worker，并行干完再汇总。OpenAI Agents SDK、LangGraph 都支持并行调度。

Q：完全不会写代码能搭多智能体吗？ A：能。扣子 Coze、Dify 都是可视化拖拽，不写代码也能搭 3-5 个 Agent 的协作工作流。复杂场景再考虑代码方案。

Q：多智能体比单 Agent 贵多少？ A：通常贵 30%-100%，主要来自上下文传递的额外 token 成本。但如果因此把任务成功率从 60% 提到 95%，整体性价比反而更高——重要的是按结果算账，不是按调用次数算账。