🤖 AI 跟我学 新手入门

思维链 CoT 是什么?让 AI 一步步想问题

思维链 CoT 是什么?一篇说清这个让 AI 解题准确率翻倍的技巧,附 3 个能直接抄的 CoT prompt 模板和踩坑提示

发布 2026/05/14

一句话说清思维链 CoT 是什么

思维链(Chain of Thought,缩写 CoT)是让 AI「先把推理过程一步步写出来,再给答案」的提示词技巧。

不加 CoT,AI 拿到一道数学题或者推理题,往往直接蹦出一个答案——对的概率全凭运气。加了 CoT,AI 会把「第一步怎么想,第二步怎么算,第三步怎么验证」全写出来,准确率能从 50% 跳到 90% 以上,这是 Google、Anthropic、OpenAI 都验证过的现象。

最低门槛的 CoT 就一句话:「请一步一步思考」。这 5 个字加在你的 prompt 末尾,效果立竿见影。但它的玩法远不止于此。

用一个生活场景理解

你问朋友:「一斤苹果 4 块钱,我买 3 斤,给老板一张 50,找回多少?」

  • 没思维链的朋友:「38。」
  • 有思维链的朋友:「3 斤 × 4 块 = 12 块,50 - 12 = 38 块。」

第二种回答慢一点,但你能验证他的逻辑对不对。如果第一种说「40」,你根本不知道他是漏算了哪一步。

AI 也一样。让它把推理写出来,错了你看得见、对了你信得过。CoT 解决的就是「AI 拍脑袋」的问题——把它从「直觉答题」逼到「思考答题」。

CoT 最简单的 3 种用法

用法 1:零样本 CoT(Zero-shot CoT)

什么都不教 AI,直接在问题末尾加一句魔法话:

📋 Prompt 模板

[你的问题]

请一步一步思考,把推理过程写出来。

这是 2022 年 Google 一篇论文里发现的现象——光加这 5 个字,模型在数学题上的准确率就翻了好几倍。到 2026 年,新一代模型已经自带「会先想再答」的倾向(Claude 4.7、GPT-5),但这句话仍然是最稳的兜底。

用法 2:少样本 CoT(Few-shot CoT)

给 AI 几个「带推理过程的例题」,让它模仿。比如:

📋 Prompt 模板

请按下面的格式解题。

例题 1: 问:小明有 5 个苹果,给了小红 2 个,又买了 4 个,现在有几个? 推理:

  1. 起始 5 个
  2. 给出 2 个 → 5 - 2 = 3 个
  3. 买入 4 个 → 3 + 4 = 7 个 答案:7

例题 2: 问:一辆车每小时跑 60 公里,开了 2.5 小时,跑了多少? 推理:

  1. 速度 60 公里/小时
  2. 时间 2.5 小时
  3. 距离 = 速度 × 时间 = 60 × 2.5 = 150 公里 答案:150 公里

现在请按同样的格式解这道题: 问:[你的题目]

例子比指令管用 10 倍。AI 会照着你给的格式走,几乎不跑偏。

用法 3:结构化 CoT

复杂任务(比如商业决策、技术方案),让 AI 按你定的「思考步骤」走:

📋 Prompt 模板

请按以下步骤分析这个问题:

  1. 列出已知信息(用 - 列点)
  2. 找出隐含的限制和假设
  3. 列出 2 到 3 种可能的方案
  4. 评估每种方案的优劣
  5. 给出你的建议和理由

如果有任何一步不确定,标出来不要瞎猜。

问题:[你的问题]

这种写法适合做决策、写方案、做产品分析。AI 会从「输出一段感想」变成「输出一份分析报告」,质量差一个数量级。

CoT 对哪些场景最有用

不是所有任务都需要 CoT。如果你问「番茄炒蛋怎么做」加一句「请一步一步思考」,AI 会写一篇煎蛋哲学。CoT 在下面这些场景才真正发力:

任务类型加 CoT 效果
数学题、奥数题准确率从 30% 跳到 80%+
逻辑推理(谁是凶手、哪天放假)几乎决定性
多步骤代码 debug能找到根因而不是表面错误
商业策略、方案对比输出从「感想」变「分析」
长文档总结找重点能避免漏关键信息
写诗、文案、闲聊没用,反而拖慢节奏

判断标准:「这道题需要先想再答,还是直接答就行?」 需要先想的,CoT 就有用。

CoT 在新一代模型上还重不重要

到 2026 年,Claude 4.7、GPT-5、Gemini 3 Pro 都自带「自适应思考」能力——遇到复杂题会自动启用内部推理(叫 reasoning、extended thinking 或 deep thinking),不用你提醒。

那 CoT 还有用吗?还有,但用法变了:

  • 新模型 + 简单题:不用 CoT,模型自己会判断要不要思考
  • 新模型 + 复杂题:CoT 可以「强化要求」(比如规定思考步骤、要求自检答案)
  • 国产模型(豆包、Kimi、DeepSeek、文心):CoT 仍然普遍有效,该加就加
  • 老模型(GPT-3.5、本地小模型):CoT 是命门,不加几乎答不对推理题

一句话:新模型让 CoT 的「触发」自动化了,但「引导思考方向」这件事还得靠 prompt

3 个高阶 CoT 玩法

玩法 1:要求 AI 自检答案

光想还不够,让它想完再倒着验一遍:

📋 Prompt 模板

解完题之后,请做 3 件事:

  1. 把答案代回原题,看是否成立
  2. 列出 1 个可能让答案错的隐含假设
  3. 给出最终答案

请一步一步思考。

这招在数学题、代码题上特别有用,能拦住大半幻觉。

玩法 2:让 AI 给出多条思路

复杂题的最佳答案往往不是第一条思路:

📋 Prompt 模板

请用 3 种不同的思路解这道题,每条思路标号写出推理过程。

最后告诉我哪条思路最可靠,理由是什么。

题目:[你的题目]

这叫 self-consistency(自一致性),是 OpenAI 评测里证明能稳定提升准确率的玩法。

玩法 3:把思考过程藏起来,只输出结论

有时候你只想要答案,不想看一堆推理。Claude 支持用 <thinking> 标签把过程藏起来:

📋 Prompt 模板

请按下面的格式回答。

将你的推理过程包裹在 thinking 标签内,最终答案包裹在 answer 标签内。我只会展示 answer 部分。

格式示例: thinking: 这里是你的推理步骤 answer: 这里是最终答案

请一步一步思考。

问题:[你的问题]

GPT-5、Claude、Kimi 都认这种结构化标签。前端展示时只读 answer,体验干净;后端日志保留 thinking,方便排查。

CoT 常见的 3 个误区

误区 1:所有 prompt 都加 CoT

CoT 让 AI 多花 token、多花时间。简单任务用 CoT 是浪费——问个翻译、写个邮件,加一堆思考步骤纯属拖累。只在「需要推理」的场景用

误区 2:以为 CoT 能消除幻觉

不能。CoT 让 AI 「答得更靠谱」,但它写出来的推理过程本身也可能编造。AI 会自信地写「根据 2024 年某某论文……」,那个论文可能根本不存在。CoT 不是真理机器,关键事实还是要你来核

误区 3:CoT 越长越好

新手喜欢逼 AI 写 1000 字推理。但 OpenAI 的实测数据是:推理过深反而会引入更多错误。最佳推理长度通常是「刚好够覆盖必要步骤」,不要硬撑。Claude 4.7 的 effort 参数、GPT-5 的 reasoning effort 参数都内置了这个判断,普通用户用默认值就好。

想再深入一步

读到这你已经会用 CoT 了。接下来想继续提升 prompt 功力,推荐看:

如果你正在挑用哪个 AI 工具做推理题,Claude 的 extended thinking 模式专为长推理设计;国产 AI 大全 里的 DeepSeek 也以推理能力出名,价格还低。

常见问题

CoT 和「让我深呼吸再回答」是一回事吗?

是同一类技巧。「Take a deep breath」「Let’s think step by step」「请一步一步思考」都属于零样本 CoT,本质都是触发模型的推理模式。到 2026 年这些咒语效果都在弱化,新模型已经会自己判断要不要深思。但加上没坏处。

国产模型支持 CoT 吗?

全部支持。豆包、Kimi、DeepSeek、文心一言、通义千问都吃这套。DeepSeek 的 R1 系列是专门做推理优化的,CoT 效果尤其强。豆包和 Kimi 加一句「请一步一步思考」也立刻能看到差别。

CoT 在中文场景效果好吗?

非常好。早期 CoT 论文都是英文测试,但中文实测效果不输。注意:用中文写 prompt 让 AI 用中文推理,比强行用英文 prompt 效果更稳。

用 CoT 后回答变慢了,怎么办?

正常。推理多了,输出多了,时间自然长。如果对延迟敏感(比如做客服、做实时翻译),可以:

  1. 限制推理长度(「推理不超过 100 字」)
  2. 用 thinking 标签藏起来,让用户看不到等待
  3. 简单任务直接不用 CoT
  4. 换轻量模型(Claude Haiku、GPT-5 Mini、豆包 Lite)

记住 CoT 的本质:用时间换准确率。值不值得,看场景。