Prompt 工程是什么?1 篇看懂工程化写提示词
Prompt 工程是什么?官方解释 + 4 个核心动作 + 什么时候该做、什么时候不该做,附 1 个能直接抄的工程化 prompt 模板
一句话说清 prompt 工程是什么
Prompt 工程(Prompt Engineering)是把「写 prompt」当成一件可以测、可以调、可以复用的事来做。
普通人写 prompt 是「想到啥写啥,AI 答得不行就再聊一句」。Prompt 工程师是「先想清楚成功的标准是什么,写一版 prompt,跑一批测试用例,看数据,再改 prompt」。区别就在「有没有可量化的反馈循环」这一条。
Anthropic 官方文档对它的定义很直接:在做 prompt 工程之前,你需要有 3 件东西——明确的成功标准、能跑测试的方法、一版初稿 prompt。少一样,你做的就只是「调 prompt」,不是「prompt 工程」。
用一个生活场景理解
想象你开了一家奶茶店,要招一个店员,让他每天给客人推荐饮品。
- 普通做法:跟店员说「客人来了你看着推荐就行」。第二天发现他给糖尿病老爷爷推了三分糖珍珠,给减肥小姐姐推了波霸全糖。你气得直跳脚。
- 工程化做法:你写一份《推荐手册》,里面规定「老人推无糖、健身人群推蛋白奶昔、学生推招牌、孕妇推无咖啡因」。第一周记录每个客人买了什么、有没有复购,发现「孕妇推荐」转化率特别低,就改手册——加一句「孕妇优先推无咖啡因鲜奶系列,提一句没有咖啡因」。
第二个做法就是「prompt 工程」的本质:先定标准 → 写出第一版 → 用真实数据测 → 看哪里不达标 → 改 → 再测。
跟普通写 prompt 比,工程化最大的区别是「数据驱动」,不靠感觉。
Prompt 工程的 4 个核心动作
Anthropic 把 prompt 工程拆成下面这套循环,几乎所有正经在做 AI 产品的团队都按这个流程走:
动作 1:定义成功标准
不写清楚「什么叫好」,调一辈子也没法收敛。比如要做一个客服机器人,标准可以是:
- 准确率(回答的对错)≥ 90%
- 平均响应在 200 字以内
- 不能编造工单号、价格、政策
- 回答语气符合「专业 + 亲切」
每条标准都要能用人或者用代码判断。模糊的「让 AI 显得专业一点」不是标准,是感觉。
动作 2:建评测集
挑出 20 到 100 个真实场景下会遇到的输入(叫 eval set),每个写好「理想答案」或「判断规则」。改 prompt 之后,重新跑一遍这个评测集,对比之前的得分。这一步是工程化的命门——没有评测集,所有的优化都是自我安慰。
动作 3:写第一版 prompt
第一版不用追求完美,但要把 4 个基本要素写齐:角色、任务、上下文、格式(细节见 Prompt 是什么)。Anthropic 的 Console、OpenAI 的 Playground 都内置了 prompt generator,能根据你的目标自动生成初版,省得对着白纸发呆。
动作 4:跑测、看坏案例、改一处、再跑
只改一个地方——这是工程化的纪律。一次改 5 处,跑出来变好了你不知道是哪处起的作用,变差了也找不到根。每改一处,跑一遍评测集,记一下分数变化。3 到 5 轮后,prompt 通常就能稳定在一个高水位。
什么时候该上 prompt 工程,什么时候不该
不是所有场景都值得做 prompt 工程。判断标准很简单:这件事是不是要让 AI 反复做、有人盯着结果对错。
| 场景 | 要不要做 prompt 工程 |
|---|---|
| 自己写邮件、查菜谱、做翻译 | 不用,调几句话就够 |
| 给团队做一个 ChatGPT 提效模板 | 要,因为别人也要用,效果要稳定 |
| 做客服机器人、内容审核、自动分类 | 必须,错一个就是事故 |
| 公司内部 RAG 知识库 | 必须,否则答得乱七八糟 |
| Coze、扣子、Dify 上搭一个 AI 应用 | 要,否则上线后用户骂街 |
普通人 90% 的场景属于第一类——不用拘泥流程,把 prompt 4 要素写齐就够了。但如果你做的事会被很多人反复用,或者结果错了有代价,就要按工程化方式上。
Anthropic 推荐的 6 类核心技巧
在做完上面 4 步之前,提前堆技巧没用。但到了「改 prompt」环节,可以从下面 6 个方向逐一试:
1. 清晰直接(Be clear and direct)
把 AI 当一个「能力强但完全不懂你公司情况的新员工」。任务、约束、格式越具体越好。金科玉律:把这段 prompt 给一个没看过你项目的同事,他能不能直接照做?做不到,AI 也做不到。
2. 给例子(Use examples)
直接给 3 到 5 个「好答案的样子」(few-shot),比你描述十遍都管用。Anthropic 文档里反复强调:「示例是引导 AI 输出格式、语气、结构最可靠的方式」。
3. 用 XML 标签结构化
prompt 复杂的时候,用 <context> <task> <example> 这种标签把不同部分包起来,AI 就不会把它们混在一起理解。Claude 对 XML 标签尤其敏感,其他模型也通用。
4. 给角色(Role prompting)
在 system prompt 里设一个明确的角色(详见 System prompt 是什么)。「你是一位有 10 年儿科经验的医生」比「请回答儿科问题」效果好很多——具体的人设会让模型调动对应风格的训练语料。
5. 引导思考(Chain of Thought)
复杂推理题、数学题、决策题,让 AI「先想再答」。最简单的实现方式就是在 prompt 末尾加一句「请一步一步思考」。详细做法见 思维链 CoT 是什么。
6. 链式 prompt(Prompt chaining)
任务太大就拆成多个小 prompt 串起来。比如「读文档 → 提关键信息 → 写摘要 → 改格式」这 4 步,每步一个 prompt,比一个长 prompt 让 AI 一次做完更准。
一个能直接抄的工程化 prompt 模板
如果你正在做一个会被反复使用的 AI 模板(写周报、做客服回复、内容分类等),可以套这个骨架:
你是 [角色 - 越具体越好,例:一位有 8 年经验的电商客服主管]。
任务
[一句话说清要做什么]
背景
[相关上下文,包括你的业务情况、目标用户、品牌语气]
约束
- 输出长度:[字数]
- 输出格式:[markdown 表格 / JSON / 纯文本 / 等]
- 必须包含:[列点]
- 禁止:[列点,例:编造工单号、承诺不在政策内的退款]
示例
输入:[一个真实输入] 输出:[对应的理想输出]
输入:[再一个] 输出:[再一个]
现在请处理这个输入
[占位符]
把方括号换成你的实际内容。这个模板在 ChatGPT、Claude、Kimi、豆包、DeepSeek 上都能直接跑。
Prompt 工程师是不是一个职业?
2023 年这个岗位很火,月薪传出过 5 万到 30 万的 case。到 2026 年,趋势已经变了——
- 纯 prompt 工程师(只调 prompt 不做别的)岗位在缩水。原因是模型越来越聪明,普通 prompt 也能给出像样的回答,门槛降低了。
- prompt 工程能力反而成了产品经理、运营、开发的标配技能。会写 prompt 的产品经理能 1 天搭一个原型,会写 prompt 的客服主管能给团队批量提效。
换句话说,「prompt 工程师」作为独立岗位在退场,但 prompt 工程作为通用技能在普及。学是要学的,只是不一定靠它当饭碗——但有它没它,工作效率差一截。
想深入的下一步
如果这篇看完你打算系统学,按下面顺序往下走:
- 想看官方推荐的具体写法 → 怎么写好 prompt:官方 5 大原则
- 想直接抄 ChatGPT 官方 7 招 → ChatGPT 提示词最佳实践
- 想拿 62 个 Claude 官方模板 → Anthropic Prompt Library 中文版
- 想理解 prompt 的本质 → Prompt 是什么
另外,要做工程化必须选一个趁手的工具:Claude 的 Console 自带 prompt generator 和 improver,对工程化场景特别友好;ChatGPT 的 Playground 也有类似功能。
常见问题
不会编程能学 prompt 工程吗?
能。Prompt 工程的核心是「定义标准 + 测 + 改」,不需要写代码。评测集可以用 Excel 维护,跑测可以人工对比,调 prompt 全是中文。不会代码反而没那么多技术包袱,专心做内容质量就好。
Prompt 工程和模型微调(fine-tuning)有什么区别?
Prompt 工程是「不动模型,只改输入」。微调是「拿你的数据训模型」。90% 的场景做好 prompt 工程就够了,微调贵、慢、还要懂训练。新人优先把 prompt 调到极致,再考虑要不要微调。
多久能上手 prompt 工程?
如果只是「把 prompt 写好」,2 周。如果是完整的工程化流程(建评测集、跑批、对比),1 到 2 个月就能上手做项目。速度的关键是有真实需求——给自己找个非做不可的小项目,比看 100 篇教程都快。
Prompt 工程会被 AI 取代吗?
部分会。GPT-5、Claude 4.7 都内置了 prompt 优化能力,AI 能帮你改 AI 的提示词。但「定义成功标准」「判断输出对错」「贴近业务场景」这些事,短期内还得靠人。工具进化反而让 prompt 工程的门槛降低,更适合非技术人入门。