Prompt 工程是什么？1 篇看懂工程化写提示词

一句话说清 prompt 工程是什么

Prompt 工程（Prompt Engineering）是把「写 prompt」当成一件可以测、可以调、可以复用的事来做。

普通人写 prompt 是「想到啥写啥，AI 答得不行就再聊一句」。Prompt 工程师是「先想清楚成功的标准是什么，写一版 prompt，跑一批测试用例，看数据，再改 prompt」。区别就在「有没有可量化的反馈循环」这一条。

Anthropic 官方文档对它的定义很直接：在做 prompt 工程之前，你需要有 3 件东西——明确的成功标准、能跑测试的方法、一版初稿 prompt。少一样，你做的就只是「调 prompt」，不是「prompt 工程」。

用一个生活场景理解

想象你开了一家奶茶店，要招一个店员，让他每天给客人推荐饮品。

普通做法：跟店员说「客人来了你看着推荐就行」。第二天发现他给糖尿病老爷爷推了三分糖珍珠，给减肥小姐姐推了波霸全糖。你气得直跳脚。
工程化做法：你写一份《推荐手册》，里面规定「老人推无糖、健身人群推蛋白奶昔、学生推招牌、孕妇推无咖啡因」。第一周记录每个客人买了什么、有没有复购，发现「孕妇推荐」转化率特别低，就改手册——加一句「孕妇优先推无咖啡因鲜奶系列，提一句没有咖啡因」。

第二个做法就是「prompt 工程」的本质：先定标准 → 写出第一版 → 用真实数据测 → 看哪里不达标 → 改 → 再测。

跟普通写 prompt 比，工程化最大的区别是「数据驱动」，不靠感觉。

Prompt 工程的 4 个核心动作

Anthropic 把 prompt 工程拆成下面这套循环，几乎所有正经在做 AI 产品的团队都按这个流程走：

动作 1：定义成功标准

不写清楚「什么叫好」，调一辈子也没法收敛。比如要做一个客服机器人，标准可以是：

准确率（回答的对错）≥ 90%
平均响应在 200 字以内
不能编造工单号、价格、政策
回答语气符合「专业 + 亲切」

每条标准都要能用人或者用代码判断。模糊的「让 AI 显得专业一点」不是标准，是感觉。

动作 2：建评测集

挑出 20 到 100 个真实场景下会遇到的输入（叫 eval set），每个写好「理想答案」或「判断规则」。改 prompt 之后，重新跑一遍这个评测集，对比之前的得分。这一步是工程化的命门——没有评测集，所有的优化都是自我安慰。

动作 3：写第一版 prompt

第一版不用追求完美，但要把 4 个基本要素写齐：角色、任务、上下文、格式（细节见 Prompt 是什么）。Anthropic 的 Console、OpenAI 的 Playground 都内置了 prompt generator，能根据你的目标自动生成初版，省得对着白纸发呆。

动作 4：跑测、看坏案例、改一处、再跑

只改一个地方——这是工程化的纪律。一次改 5 处，跑出来变好了你不知道是哪处起的作用，变差了也找不到根。每改一处，跑一遍评测集，记一下分数变化。3 到 5 轮后，prompt 通常就能稳定在一个高水位。

什么时候该上 prompt 工程，什么时候不该

不是所有场景都值得做 prompt 工程。判断标准很简单：这件事是不是要让 AI 反复做、有人盯着结果对错。

场景	要不要做 prompt 工程
自己写邮件、查菜谱、做翻译	不用，调几句话就够
给团队做一个 ChatGPT 提效模板	要，因为别人也要用，效果要稳定
做客服机器人、内容审核、自动分类	必须，错一个就是事故
公司内部 RAG 知识库	必须，否则答得乱七八糟
Coze、扣子、Dify 上搭一个 AI 应用	要，否则上线后用户骂街

普通人 90% 的场景属于第一类——不用拘泥流程，把 prompt 4 要素写齐就够了。但如果你做的事会被很多人反复用，或者结果错了有代价，就要按工程化方式上。

Anthropic 推荐的 6 类核心技巧

在做完上面 4 步之前，提前堆技巧没用。但到了「改 prompt」环节，可以从下面 6 个方向逐一试：

1. 清晰直接（Be clear and direct）

把 AI 当一个「能力强但完全不懂你公司情况的新员工」。任务、约束、格式越具体越好。金科玉律：把这段 prompt 给一个没看过你项目的同事，他能不能直接照做？做不到，AI 也做不到。

2. 给例子（Use examples）

直接给 3 到 5 个「好答案的样子」（few-shot），比你描述十遍都管用。Anthropic 文档里反复强调：「示例是引导 AI 输出格式、语气、结构最可靠的方式」。

3. 用 XML 标签结构化

prompt 复杂的时候，用 <context> <task> <example> 这种标签把不同部分包起来，AI 就不会把它们混在一起理解。Claude 对 XML 标签尤其敏感，其他模型也通用。

4. 给角色（Role prompting）

在 system prompt 里设一个明确的角色（详见 System prompt 是什么）。「你是一位有 10 年儿科经验的医生」比「请回答儿科问题」效果好很多——具体的人设会让模型调动对应风格的训练语料。

5. 引导思考（Chain of Thought）

复杂推理题、数学题、决策题，让 AI「先想再答」。最简单的实现方式就是在 prompt 末尾加一句「请一步一步思考」。详细做法见思维链 CoT 是什么。

6. 链式 prompt（Prompt chaining）

任务太大就拆成多个小 prompt 串起来。比如「读文档 → 提关键信息 → 写摘要 → 改格式」这 4 步，每步一个 prompt，比一个长 prompt 让 AI 一次做完更准。

一个能直接抄的工程化 prompt 模板

如果你正在做一个会被反复使用的 AI 模板（写周报、做客服回复、内容分类等），可以套这个骨架：

📋 Prompt 模板

你是 [角色 - 越具体越好，例：一位有 8 年经验的电商客服主管]。
任务
[一句话说清要做什么]
背景
[相关上下文，包括你的业务情况、目标用户、品牌语气]
约束

输出长度：[字数]
输出格式：[markdown 表格 / JSON / 纯文本 / 等]
必须包含：[列点]
禁止：[列点，例：编造工单号、承诺不在政策内的退款]
示例
输入：[一个真实输入]
输出：[对应的理想输出]
输入：[再一个]
输出：[再一个]
现在请处理这个输入
[占位符]

把方括号换成你的实际内容。这个模板在 ChatGPT、Claude、Kimi、豆包、DeepSeek 上都能直接跑。

Prompt 工程师是不是一个职业？

2023 年这个岗位很火，月薪传出过 5 万到 30 万的 case。到 2026 年，趋势已经变了——

纯 prompt 工程师（只调 prompt 不做别的）岗位在缩水。原因是模型越来越聪明，普通 prompt 也能给出像样的回答，门槛降低了。
prompt 工程能力反而成了产品经理、运营、开发的标配技能。会写 prompt 的产品经理能 1 天搭一个原型，会写 prompt 的客服主管能给团队批量提效。

换句话说，「prompt 工程师」作为独立岗位在退场，但 prompt 工程作为通用技能在普及。学是要学的，只是不一定靠它当饭碗——但有它没它，工作效率差一截。

想深入的下一步

如果这篇看完你打算系统学，按下面顺序往下走：

想看官方推荐的具体写法 → 怎么写好 prompt：官方 5 大原则
想直接抄 ChatGPT 官方 7 招 → ChatGPT 提示词最佳实践
想拿 62 个 Claude 官方模板 → Anthropic Prompt Library 中文版
想理解 prompt 的本质 → Prompt 是什么

另外，要做工程化必须选一个趁手的工具：Claude 的 Console 自带 prompt generator 和 improver，对工程化场景特别友好；ChatGPT 的 Playground 也有类似功能。

常见问题

不会编程能学 prompt 工程吗？

能。Prompt 工程的核心是「定义标准 + 测 + 改」，不需要写代码。评测集可以用 Excel 维护，跑测可以人工对比，调 prompt 全是中文。不会代码反而没那么多技术包袱，专心做内容质量就好。

Prompt 工程和模型微调（fine-tuning）有什么区别？

Prompt 工程是「不动模型，只改输入」。微调是「拿你的数据训模型」。90% 的场景做好 prompt 工程就够了，微调贵、慢、还要懂训练。新人优先把 prompt 调到极致，再考虑要不要微调。

多久能上手 prompt 工程？

如果只是「把 prompt 写好」，2 周。如果是完整的工程化流程（建评测集、跑批、对比），1 到 2 个月就能上手做项目。速度的关键是有真实需求——给自己找个非做不可的小项目，比看 100 篇教程都快。

Prompt 工程会被 AI 取代吗？

部分会。GPT-5、Claude 4.7 都内置了 prompt 优化能力，AI 能帮你改 AI 的提示词。但「定义成功标准」「判断输出对错」「贴近业务场景」这些事，短期内还得靠人。工具进化反而让 prompt 工程的门槛降低，更适合非技术人入门。