AI 涌现是什么？大模型突然变聪明的秘密

一句话说清 AI 涌现是什么

AI 涌现，是指一个 AI 模型，做着做着，突然就会了它原本不会的事。

「涌现」这个词听起来玄，意思其实直白：模型做小的时候啥都不会，但当它做到某个”够大”的临界点，一夜之间会做很多新事情。

举个具体例子。OpenAI 工程师当年训练 GPT 系列模型：

GPT-2（15 亿参数）：做不了多步数学题
GPT-3（1750 亿参数）：突然能做多步推理了
GPT-4（更大）：又突然能做奥赛题、写代码、过律师考试了

工程师没单独教它”怎么过律师考试”——但模型大到一定程度，这种能力就”自己冒出来了”。这就是「涌现」。

英文原词是「Emergence」，源于物理、生物、社会科学领域——意思是「整体的性质比单个元素加在一起多得多」。最经典的比喻：单个水分子既不”湿”也不”流动”，但 10 亿个水分子放在一起就是水，能流、能解渴。「湿」是涌现出来的性质。

AI 涌现就是这个意思——单个神经元很笨，但几千亿个堆在一起、训练够长，“智能”就涌现出来了。

用一个生活场景理解涌现

想象一群蚂蚁。

一只蚂蚁：弱小，只会找食物搬回家，逻辑简单
一千只蚂蚁：开始有简单的分工，但还很机械
一万只蚂蚁的蚁群：突然出现了你想象不到的复杂行为——能找到回家最短路径、能盖出有空调系统的蚁穴、能”打仗”

你去看每只蚂蚁，它根本不懂”蚁穴怎么设计”。但整个蚁群作为一个整体，“蚁群的智慧”涌现了出来。

AI 模型也是这样。单个参数（一个小开关）什么都不懂，但几千亿个参数协同工作时，“理解能力”就出现了。

跟蚂蚁不一样的地方在于：AI 的涌现是”突然”的——不是参数越多能力线性提升，而是到了某个临界点会跳跃式爆发。研究者称之为「相变」（borrowed from physics），就像水到了 0 度突然结冰一样。

涌现能力的几个真实例子

不是所有能力都涌现。下面这些是研究者发现”必须模型够大才会”的能力：

能力	大概在哪个量级出现	具体例子
多步推理	50-100 亿参数后	”如果 A 比 B 大，B 比 C 大，那 A 和 C…”这种链式题
跟随复杂指令	100 亿参数以上	”请用 3 段话，第 1 段是诗、第 2 段是散文、第 3 段…”
翻译没训练过的语种	千亿级	训练时不见斯瓦希里语，但训练完后能翻
写代码	千亿级	给个需求描述能生成可运行代码
角色扮演	千亿级	”请扮演一个 1850 年的伦敦律师…”
思维链推理	万亿级 / 后训练优化	复杂数学题、逻辑题

这些都是工程师没”专门教”的——模型学了海量文字，到了某个体量就”自己会了”。

涌现现象意味着什么

涌现是过去 5 年 AI 发展最让圈内人震撼的现象之一。它有几个深层影响：

1. 让人相信「再大点会更聪明」

涌现的意外性催生了「Scaling Law」（缩放定律）——人们相信，只要继续把模型做大、把数据堆多，AI 会持续出现新能力。这是 OpenAI、Anthropic、Google 持续烧几百亿美元做模型的根本动力。

2. 涌现也是「黑盒子」

由于能力是”自己出现的”，工程师常常事后才知道模型会什么。今天的 GPT-5 会不会写一种全新风格的诗？没人提前知道，要测了才发现。这种”不可预测性”既是惊喜，也是风险来源——AI 安全研究的一大主题就是「怎么提前知道下一代模型会涌现什么能力」。

3. 涌现质疑：是真的还是假的？

近年来有不少研究反驳「涌现是个错觉」。代表观点：所谓”突然出现”，其实是评测指标的设计问题——如果你用更平滑的指标，你会看到能力是逐渐变强的，不是跳跃式的。

业内目前的折衷看法：涌现是真实存在的现象，但不像最初描述得那么神秘。它部分是评测的”分辨率”问题，部分是真正的”模型能力相变”。

4. 涌现 ≠ 通用智能

涌现一些能力 ≠ 模型”真正理解”。它仍是模式识别 + 概率预测，只是模式足够复杂到能模拟”理解”的表现。详细可以看 AGI 是什么？通用人工智能离我们多远。

涌现对普通用户意味着什么

听起来很抽象，对你日常用 AI 有几个非常实际的影响：

1. 新模型会突然”开窍”

每隔几个月，主流大模型都会出新版本（如 GPT-4 → GPT-5、Claude Sonnet → Opus）。每次升级常常不只是”更快、更准”，而是新增了一些以前完全没有的能力——比如能写 Excel 公式、能解几何题、能模拟法律咨询。

建议：定期试试新模型，不要假设”上次它不会的事现在还不会”。

2. 同一个 prompt，不同模型差别巨大

由于涌现的临界点不同，便宜的小模型和顶级旗舰模型在某些任务上差别极大。比如多步推理、复杂代码生成，小模型可能”完全答不出”，大模型轻松搞定。

建议：复杂任务用旗舰模型，简单任务用小模型。详见 Token 是什么？AI 计费单位。

3. AI 突然出错也可能跟涌现有关

模型在大多数任务上很强，但遇到边缘场景（很冷门的话题、特殊语法、专业领域）可能突然”翻车”。这往往是因为该领域的能力还没”涌现”到位。

建议：用 AI 做严肃工作时，关键信息要二次核对——参考 AI 幻觉是什么？6 招识别。

一个让你”看见涌现”的小实验 prompt

想自己感受涌现的存在？把下面这段 prompt 分别丢给一个小模型（如手机上的某些小型助手）和一个旗舰模型（如 ChatGPT、Claude 或 Kimi），对比答案：

📋 Prompt 模板

请你做一道思考题，要写出完整推理过程：

题目：有 3 个箱子。

第 1 个箱子里全是苹果
第 2 个箱子里全是橘子
第 3 个箱子里既有苹果也有橘子

但每个箱子的标签都贴错了，没有一个箱子的标签是对的。

问：你只能从其中一个箱子里随便取出一个水果看一眼，怎么用这一次机会，就把所有箱子的标签都纠正过来？

要求：

写出你的思考链
给出最终答案
解释为什么这个方法管用

小模型大概率会绕晕、答错或干脆”投降”；旗舰模型会写出完整、有条理的推理过程。这种能力差距，就是涌现的可见痕迹。

涌现现象的未来

学界还在持续研究这些问题：

下一次大涌现在哪？ 有人押注「持续学习」「自我反思」「世界模型」等能力会是下一波涌现的对象
能不能”调出”涌现？ 工程师试图通过「思维链 prompt」「微调」等方式提前激发能力
涌现能否被”预测”？ 这是 AI 安全的圣杯——能预测模型还会涌现什么，就能提前防范风险
是否有”涌现的上限”？ 不知道。可能继续涌现新能力，也可能撞上瓶颈

无论结果怎样，作为普通用户，最好的策略是持续用、持续观察、持续调整自己跟 AI 协作的方式。

下一步

想从最基础开始 → AI 是什么？通俗解释
想懂大模型怎么训出来的 → 大模型是什么？
想知道 AGI 是什么 → AGI 是什么？通用人工智能离我们多远
想了解 Token 计费 → Token 是什么？AI 计费单位
想看 AI 多模态能力 → 多模态 AI 是什么？图音视频一文看懂
直接开始用 AI → 小白第一个 AI 选什么

常见问题

Q：涌现是 AI 独有的现象吗？ A：不是。涌现广泛存在于自然界——大脑由神经元组成涌现出意识，社会由个人组成涌现出经济规律，蚂蚁组成蚁群涌现出群体智慧。AI 涌现只是这个普遍现象在大模型上的一个表现。

Q：涌现能力会”消失”吗？ A：通常不会。一旦模型规模到位，能力会稳定下来。但**「微调」可能让模型在某些能力上”退步”**——比如训练它做某项专门任务时，可能丢掉一些通用能力。

Q：涌现意味着 AI 会自己产生意识吗？ A：目前没有任何证据表明。涌现的是”功能性能力”（会做某事），不是”主观体验”（感受到什么）。后者属于哲学问题，学界没共识。

Q：为什么有人说「涌现是个错觉」？ A：有研究指出，所谓”突然出现”很大程度上是评测指标设计的结果——用更平滑的指标看，能力其实是渐进的。目前业内的折衷看法是：涌现真实存在，但没最初描述那么神秘。

Q：是不是所有 AI 公司都看好”做更大模型”这条路？ A：不全是。OpenAI、Anthropic 等坚定走 scaling 路线；也有公司主张「小模型 + 算法优化」（如 DeepSeek 的路线）；还有研究者认为应该换底层范式。未来 5 年大概率几条路并存。

Q：作为普通用户，我应该相信”再过几年 AI 会更强”吗？ A：可以谨慎乐观。短期（2-3 年）：能力会继续涌现，AI 会变得明显更好用；长期（5-10 年）：变数太大，不要赌时间表，专注于现在能用 AI 做什么。

Q：涌现现象跟 ChatGPT 的「思维链」是同一回事吗？ A：相关但不同。思维链（Chain of Thought） 是一种 prompt 技巧——让模型”先想后答”；涌现是模型本身具备了这种”能思考”的能力。思维链能用得好，是模型推理能力涌现到位之后的事。