Prompt token 是什么?提示词长度上限 1 篇懂
Prompt token 是什么?1 篇讲清提示词长度上限、token 怎么算、主流 AI 工具的 token 限制对比,以及小白也能学的省 token 技巧。
一句话说清
Prompt token 是 AI 把你输入的文字「切成的最小处理单位」——一个 token 不一定是一个字,可能是半个汉字、一个英文单词、一个标点。所有主流 AI 工具都按 token 算上下文长度和费用,超了就会被截断或报错。
打个直观比方:你以为你给 AI 发了 1000 字,AI 看到的可能是 1500 个 token。模型有个「窗口大小」,比如 GPT-5 一次能处理 40 万 token,DeepSeek V3 是 13 万 token,Claude 4.7 是 100 万。超过这个数,前面的内容会被切掉。
读完这篇你会知道:token 到底怎么算、prompt 长度上限的真相、主流 AI 的 token 限制对比、以及怎么省 token。
用一个生活场景理解
你去一家自助餐厅,老板告诉你「一个盘子最多装 500 克」。
- 你想吃一只整鸡——太大装不下,要切开装两盘
- 你想吃 10 颗虾——刚好够,一盘解决
- 你想吃 1000 克牛排——超盘,要么少装要么换大盘
这个「盘子的容量」就是 AI 模型的 context window(上下文窗口),单位是 token。你的 prompt 就是要往盘子里装的食物。
token 和「字」的关系不是 1:1:
- 一个常用汉字 ≈ 1-2 个 token
- 一个英文短词(如 “the”)≈ 1 个 token
- 一个英文长词(如 “internationalization”)≈ 3-4 个 token
- 一个标点符号 ≈ 1 个 token
- 一个 emoji ≈ 2-4 个 token
简单换算:1000 个中文字 ≈ 1500-2000 个 token;1000 个英文单词 ≈ 1300-1500 个 token。
token 到底怎么切出来的
每家 AI 用的 tokenizer(切词器)不太一样,但大致逻辑相同:
英文:按「常见词根 + 后缀」拆
unbelievable 会被拆成 un + believ + able,3 个 token。这种叫 BPE(Byte Pair Encoding)算法。
中文:按「字」或「常用词」拆
「你好」可能是 1 个 token(GPT 系列把高频词当一个),「人工智能」可能是 2 个 token。罕见汉字(比如「饕餮」)有时会被拆成 2-3 个 token。
代码 / JSON:按「符号块」拆
function getName() 会被拆成 function + getName + (),3-4 个 token。
emoji 和符号
🤖 这种 emoji 一般算 2-4 个 token。表情包发 prompt 会显著吃 token。
实测工具推荐:
- OpenAI 官方 tokenizer:platform.openai.com/tokenizer — 粘贴文字,立刻看 token 数量
- Claude tokenizer(Anthropic 工作台内置):登录 console.anthropic.com 后可以测
- 国产模型:百度文心、阿里通义、月之暗面 Kimi 都在 API 文档里提供 token 计算方法
主流 AI 工具的 token 限制对比
数据基于 2026 年 5 月各家官方公开信息(具体以最新公告为准):
| 模型 | 上下文窗口(输入 token) | 单次输出上限 | 大概等于多少中文字 |
|---|---|---|---|
| GPT-5 | 40 万 | 12.8 万 | 20-25 万字(≈ 4 本中长篇小说) |
| Claude Opus 4.7 | 100 万 | 6.4 万 | 50-65 万字(≈ 10 本小说) |
| Gemini 2.5 Pro | 200 万 | 6.4 万 | 100-130 万字(≈ 20 本小说) |
| DeepSeek V3 | 13 万 | 3.2 万 | 6-8 万字 |
| Kimi K2 | 256 万 | 12.8 万 | 130-160 万字 |
| 通义千问 3 | 100 万 | 3.2 万 | 50-65 万字 |
| 豆包 1.6 | 25.6 万 | 3.2 万 | 13-16 万字 |
给小白的判断标准:
- 日常聊天、写邮件、改文章:任何模型都够用
- 整本书翻译、长论文分析:选 Claude 4.7、Gemini 2.5 Pro、Kimi K2
- 整个代码仓库扔进去让 AI 读:用 Claude 4.7 的 100 万 token 版本最稳
具体怎么选可以看国产 AI 大全和Claude 怎么用。
真实的「上限」并没有官方数字那么乐观
这里有个反直觉的事实:官方说 100 万 token 上限,不代表你塞 100 万 token AI 就能用得很好。
行业实测(包括 Anthropic、OpenAI 自己的论文)都承认:
- 前 30% 和后 30% 记得最清——中间部分容易被「遗忘」(叫 lost in the middle 现象)
- 超过 50% 容量后,质量会逐步下降——能用但精度变差
- 复杂推理任务对长上下文更敏感——简单总结类还行,多步推理就容易出错
实用建议:真要塞长文档,控制在模型上限的 50% 以内最稳。
详细的长上下文写作技巧可以看长上下文 prompt 怎么写。
5 个省 token 的实用技巧
token 不光决定能不能装下,还决定调 API 的费用。学会省 token 能省下真金白银。
技巧 1:删掉客套话
❌ 「您好,麻烦请帮我一下,谢谢您的辛苦工作」(25 token) ✅ 「请」(1 token)
AI 不需要你客气。
技巧 2:用缩写和简称
❌ 「人工智能大语言模型」(10+ token) ✅ 「LLM」(2 token)
只要 AI 能理解你的缩写,就大胆用。
技巧 3:用结构化代替散文
❌ 散文式描述:「我是产品经理,工作 3 年,主要做 To B 工具,目前遇到的问题是用户活跃度低,希望你帮我分析原因并给出建议……」
✅ 结构化:
背景:
- 我:B 端产品经理,3 年经验
- 产品:B 端工具
- 问题:用户活跃度低
要求:分析原因 + 给建议
省 token,AI 反而看得更清楚。
技巧 4:长文档先精简再喂
如果你有一份 100 页 PDF 要让 AI 分析,先:
- 自己挑出最相关的 10-20 页
- 删掉页眉页脚、目录、参考文献
- 转纯文本(不要 Word 格式,会带很多隐藏字符)
能把 token 用量砍到原来的 1/5。
技巧 5:合理使用Prompt 模板和变量
模板化之后,固定指令不会重复写。比如同样翻译任务,散写要 50 token,模板化后变量替换只要 30 token。
一个直观对比:同样的需求,不同写法的 token 消耗
任务:让 AI 总结一篇 3000 字的新闻报道
版本 A:松散写法(约 240 token 指令 + 5000 token 全文)
您好,我现在有一篇新闻报道想麻烦您帮我看看。我希望您能帮我做一个总结,把里面最重要的信息给我提炼出来,最好是用比较容易懂的方式来写……
版本 B:精简写法(约 60 token 指令 + 5000 token 全文)
总结下面新闻的核心信息。
要求:
- 3 个 bullet point
- 每个 ≤ 30 字
- 第一行用一句话点出主旨
新闻: [粘贴全文]
A 比 B 多花 180 token——单次差不大,但如果你一天用 100 次,一年就是 660 万 token,按 GPT-5 的价格能省一两顿火锅钱。
常见问题
Q1:上下文窗口越大越好吗?
不一定。大窗口=更贵 + 更慢。日常 1 万 token 以下的需求,用普通模型反而更划算。Anthropic 官方实测显示:大多数日常任务在 32k token 以内就能搞定。
Q2:超过上限会怎样?
两种结果:
- API 直接报错(开发者最常遇到,会返回 token limit exceeded)
- 网页版自动截断(ChatGPT、Claude 网页会把最早的对话「忘掉」,你会感觉 AI 突然「失忆」)
Q3:图片、PDF 算 token 吗?
算。一张图片大概 1000-5000 token(看分辨率),PDF 按里面的文字内容 + 图片单独算。如果你用 Claude 上传 100 页 PDF,可能直接吃掉 30-50 万 token。
Q4:长上下文 prompt和 token 限制什么关系?
长上下文 prompt 是「在 token 限制内最大化利用窗口」的技巧。即使 100 万窗口,怎么排布内容、把什么放前面,都直接影响效果。
Q5:写 prompt 模板的时候要不要管 token?
要。模板里多余的客套、重复的指令都是浪费。每条模板上线前用 OpenAI tokenizer 测一下,能省 20-50% 很常见。
下一步
理解了 token 和上下文长度,建议你继续:
- 长上下文 prompt 怎么写 — 学会在大窗口里把内容排好
- Prompt 模板和变量怎么用 — 写省 token 的可复用 prompt
- Prompt 工程是什么 — 把 token 优化纳入整体方法论
- Claude 是什么 / 国产 AI 大全 — 按 token 容量选最合适的模型
最后给小白一个心法:token 不是越省越好,也不是越多越好。核心是「让你的 prompt 信息密度尽量高」——同样表达一件事,用更少的 token 说清,AI 反而理解得更准。