思维链 CoT 是什么?让 AI 一步步想问题
思维链 CoT 是什么?一篇说清这个让 AI 解题准确率翻倍的技巧,附 3 个能直接抄的 CoT prompt 模板和踩坑提示
一句话说清思维链 CoT 是什么
思维链(Chain of Thought,缩写 CoT)是让 AI「先把推理过程一步步写出来,再给答案」的提示词技巧。
不加 CoT,AI 拿到一道数学题或者推理题,往往直接蹦出一个答案——对的概率全凭运气。加了 CoT,AI 会把「第一步怎么想,第二步怎么算,第三步怎么验证」全写出来,准确率能从 50% 跳到 90% 以上,这是 Google、Anthropic、OpenAI 都验证过的现象。
最低门槛的 CoT 就一句话:「请一步一步思考」。这 5 个字加在你的 prompt 末尾,效果立竿见影。但它的玩法远不止于此。
用一个生活场景理解
你问朋友:「一斤苹果 4 块钱,我买 3 斤,给老板一张 50,找回多少?」
- 没思维链的朋友:「38。」
- 有思维链的朋友:「3 斤 × 4 块 = 12 块,50 - 12 = 38 块。」
第二种回答慢一点,但你能验证他的逻辑对不对。如果第一种说「40」,你根本不知道他是漏算了哪一步。
AI 也一样。让它把推理写出来,错了你看得见、对了你信得过。CoT 解决的就是「AI 拍脑袋」的问题——把它从「直觉答题」逼到「思考答题」。
CoT 最简单的 3 种用法
用法 1:零样本 CoT(Zero-shot CoT)
什么都不教 AI,直接在问题末尾加一句魔法话:
[你的问题]
请一步一步思考,把推理过程写出来。
这是 2022 年 Google 一篇论文里发现的现象——光加这 5 个字,模型在数学题上的准确率就翻了好几倍。到 2026 年,新一代模型已经自带「会先想再答」的倾向(Claude 4.7、GPT-5),但这句话仍然是最稳的兜底。
用法 2:少样本 CoT(Few-shot CoT)
给 AI 几个「带推理过程的例题」,让它模仿。比如:
请按下面的格式解题。
例题 1: 问:小明有 5 个苹果,给了小红 2 个,又买了 4 个,现在有几个? 推理:
- 起始 5 个
- 给出 2 个 → 5 - 2 = 3 个
- 买入 4 个 → 3 + 4 = 7 个 答案:7
例题 2: 问:一辆车每小时跑 60 公里,开了 2.5 小时,跑了多少? 推理:
- 速度 60 公里/小时
- 时间 2.5 小时
- 距离 = 速度 × 时间 = 60 × 2.5 = 150 公里 答案:150 公里
现在请按同样的格式解这道题: 问:[你的题目]
例子比指令管用 10 倍。AI 会照着你给的格式走,几乎不跑偏。
用法 3:结构化 CoT
复杂任务(比如商业决策、技术方案),让 AI 按你定的「思考步骤」走:
请按以下步骤分析这个问题:
- 列出已知信息(用 - 列点)
- 找出隐含的限制和假设
- 列出 2 到 3 种可能的方案
- 评估每种方案的优劣
- 给出你的建议和理由
如果有任何一步不确定,标出来不要瞎猜。
问题:[你的问题]
这种写法适合做决策、写方案、做产品分析。AI 会从「输出一段感想」变成「输出一份分析报告」,质量差一个数量级。
CoT 对哪些场景最有用
不是所有任务都需要 CoT。如果你问「番茄炒蛋怎么做」加一句「请一步一步思考」,AI 会写一篇煎蛋哲学。CoT 在下面这些场景才真正发力:
| 任务类型 | 加 CoT 效果 |
|---|---|
| 数学题、奥数题 | 准确率从 30% 跳到 80%+ |
| 逻辑推理(谁是凶手、哪天放假) | 几乎决定性 |
| 多步骤代码 debug | 能找到根因而不是表面错误 |
| 商业策略、方案对比 | 输出从「感想」变「分析」 |
| 长文档总结找重点 | 能避免漏关键信息 |
| 写诗、文案、闲聊 | 没用,反而拖慢节奏 |
判断标准:「这道题需要先想再答,还是直接答就行?」 需要先想的,CoT 就有用。
CoT 在新一代模型上还重不重要
到 2026 年,Claude 4.7、GPT-5、Gemini 3 Pro 都自带「自适应思考」能力——遇到复杂题会自动启用内部推理(叫 reasoning、extended thinking 或 deep thinking),不用你提醒。
那 CoT 还有用吗?还有,但用法变了:
- 新模型 + 简单题:不用 CoT,模型自己会判断要不要思考
- 新模型 + 复杂题:CoT 可以「强化要求」(比如规定思考步骤、要求自检答案)
- 国产模型(豆包、Kimi、DeepSeek、文心):CoT 仍然普遍有效,该加就加
- 老模型(GPT-3.5、本地小模型):CoT 是命门,不加几乎答不对推理题
一句话:新模型让 CoT 的「触发」自动化了,但「引导思考方向」这件事还得靠 prompt。
3 个高阶 CoT 玩法
玩法 1:要求 AI 自检答案
光想还不够,让它想完再倒着验一遍:
解完题之后,请做 3 件事:
- 把答案代回原题,看是否成立
- 列出 1 个可能让答案错的隐含假设
- 给出最终答案
请一步一步思考。
这招在数学题、代码题上特别有用,能拦住大半幻觉。
玩法 2:让 AI 给出多条思路
复杂题的最佳答案往往不是第一条思路:
请用 3 种不同的思路解这道题,每条思路标号写出推理过程。
最后告诉我哪条思路最可靠,理由是什么。
题目:[你的题目]
这叫 self-consistency(自一致性),是 OpenAI 评测里证明能稳定提升准确率的玩法。
玩法 3:把思考过程藏起来,只输出结论
有时候你只想要答案,不想看一堆推理。Claude 支持用 <thinking> 标签把过程藏起来:
请按下面的格式回答。
将你的推理过程包裹在 thinking 标签内,最终答案包裹在 answer 标签内。我只会展示 answer 部分。
格式示例: thinking: 这里是你的推理步骤 answer: 这里是最终答案
请一步一步思考。
问题:[你的问题]
GPT-5、Claude、Kimi 都认这种结构化标签。前端展示时只读 answer,体验干净;后端日志保留 thinking,方便排查。
CoT 常见的 3 个误区
误区 1:所有 prompt 都加 CoT
CoT 让 AI 多花 token、多花时间。简单任务用 CoT 是浪费——问个翻译、写个邮件,加一堆思考步骤纯属拖累。只在「需要推理」的场景用。
误区 2:以为 CoT 能消除幻觉
不能。CoT 让 AI 「答得更靠谱」,但它写出来的推理过程本身也可能编造。AI 会自信地写「根据 2024 年某某论文……」,那个论文可能根本不存在。CoT 不是真理机器,关键事实还是要你来核。
误区 3:CoT 越长越好
新手喜欢逼 AI 写 1000 字推理。但 OpenAI 的实测数据是:推理过深反而会引入更多错误。最佳推理长度通常是「刚好够覆盖必要步骤」,不要硬撑。Claude 4.7 的 effort 参数、GPT-5 的 reasoning effort 参数都内置了这个判断,普通用户用默认值就好。
想再深入一步
读到这你已经会用 CoT 了。接下来想继续提升 prompt 功力,推荐看:
- 想理解 prompt 的本质 → Prompt 是什么
- 想系统学 prompt 工程方法论 → Prompt 工程是什么
- 想看官方 5 大原则的具体写法 → 怎么写好 prompt
- 想给 AI 设角色让回答更专业 → System prompt 是什么
- 想直接抄成熟模板 → Anthropic Prompt Library 中文版
如果你正在挑用哪个 AI 工具做推理题,Claude 的 extended thinking 模式专为长推理设计;国产 AI 大全 里的 DeepSeek 也以推理能力出名,价格还低。
常见问题
CoT 和「让我深呼吸再回答」是一回事吗?
是同一类技巧。「Take a deep breath」「Let’s think step by step」「请一步一步思考」都属于零样本 CoT,本质都是触发模型的推理模式。到 2026 年这些咒语效果都在弱化,新模型已经会自己判断要不要深思。但加上没坏处。
国产模型支持 CoT 吗?
全部支持。豆包、Kimi、DeepSeek、文心一言、通义千问都吃这套。DeepSeek 的 R1 系列是专门做推理优化的,CoT 效果尤其强。豆包和 Kimi 加一句「请一步一步思考」也立刻能看到差别。
CoT 在中文场景效果好吗?
非常好。早期 CoT 论文都是英文测试,但中文实测效果不输。注意:用中文写 prompt 让 AI 用中文推理,比强行用英文 prompt 效果更稳。
用 CoT 后回答变慢了,怎么办?
正常。推理多了,输出多了,时间自然长。如果对延迟敏感(比如做客服、做实时翻译),可以:
- 限制推理长度(「推理不超过 100 字」)
- 用 thinking 标签藏起来,让用户看不到等待
- 简单任务直接不用 CoT
- 换轻量模型(Claude Haiku、GPT-5 Mini、豆包 Lite)
记住 CoT 的本质:用时间换准确率。值不值得,看场景。