🤖 AI 跟我学 新手入门

Prompt token 是什么?提示词长度上限 1 篇懂

Prompt token 是什么?1 篇讲清提示词长度上限、token 怎么算、主流 AI 工具的 token 限制对比,以及小白也能学的省 token 技巧。

发布 2026/05/18

一句话说清

Prompt token 是 AI 把你输入的文字「切成的最小处理单位」——一个 token 不一定是一个字,可能是半个汉字、一个英文单词、一个标点。所有主流 AI 工具都按 token 算上下文长度和费用,超了就会被截断或报错。

打个直观比方:你以为你给 AI 发了 1000 字,AI 看到的可能是 1500 个 token。模型有个「窗口大小」,比如 GPT-5 一次能处理 40 万 token,DeepSeek V3 是 13 万 token,Claude 4.7 是 100 万。超过这个数,前面的内容会被切掉。

读完这篇你会知道:token 到底怎么算、prompt 长度上限的真相、主流 AI 的 token 限制对比、以及怎么省 token。

用一个生活场景理解

你去一家自助餐厅,老板告诉你「一个盘子最多装 500 克」。

  • 你想吃一只整鸡——太大装不下,要切开装两盘
  • 你想吃 10 颗虾——刚好够,一盘解决
  • 你想吃 1000 克牛排——超盘,要么少装要么换大盘

这个「盘子的容量」就是 AI 模型的 context window(上下文窗口),单位是 token。你的 prompt 就是要往盘子里装的食物。

token 和「字」的关系不是 1:1:

  • 一个常用汉字 ≈ 1-2 个 token
  • 一个英文短词(如 “the”)≈ 1 个 token
  • 一个英文长词(如 “internationalization”)≈ 3-4 个 token
  • 一个标点符号 ≈ 1 个 token
  • 一个 emoji ≈ 2-4 个 token

简单换算:1000 个中文字 ≈ 1500-2000 个 token;1000 个英文单词 ≈ 1300-1500 个 token。

token 到底怎么切出来的

每家 AI 用的 tokenizer(切词器)不太一样,但大致逻辑相同:

英文:按「常见词根 + 后缀」拆

unbelievable 会被拆成 un + believ + able,3 个 token。这种叫 BPE(Byte Pair Encoding)算法。

中文:按「字」或「常用词」拆

「你好」可能是 1 个 token(GPT 系列把高频词当一个),「人工智能」可能是 2 个 token。罕见汉字(比如「饕餮」)有时会被拆成 2-3 个 token。

代码 / JSON:按「符号块」拆

function getName() 会被拆成 function + getName + (),3-4 个 token。

emoji 和符号

🤖 这种 emoji 一般算 2-4 个 token。表情包发 prompt 会显著吃 token。

实测工具推荐:

  • OpenAI 官方 tokenizerplatform.openai.com/tokenizer — 粘贴文字,立刻看 token 数量
  • Claude tokenizer(Anthropic 工作台内置):登录 console.anthropic.com 后可以测
  • 国产模型:百度文心、阿里通义、月之暗面 Kimi 都在 API 文档里提供 token 计算方法

主流 AI 工具的 token 限制对比

数据基于 2026 年 5 月各家官方公开信息(具体以最新公告为准):

模型上下文窗口(输入 token)单次输出上限大概等于多少中文字
GPT-540 万12.8 万20-25 万字(≈ 4 本中长篇小说)
Claude Opus 4.7100 万6.4 万50-65 万字(≈ 10 本小说)
Gemini 2.5 Pro200 万6.4 万100-130 万字(≈ 20 本小说)
DeepSeek V313 万3.2 万6-8 万字
Kimi K2256 万12.8 万130-160 万字
通义千问 3100 万3.2 万50-65 万字
豆包 1.625.6 万3.2 万13-16 万字

给小白的判断标准

  • 日常聊天、写邮件、改文章:任何模型都够用
  • 整本书翻译、长论文分析:选 Claude 4.7、Gemini 2.5 Pro、Kimi K2
  • 整个代码仓库扔进去让 AI 读:用 Claude 4.7 的 100 万 token 版本最稳

具体怎么选可以看国产 AI 大全Claude 怎么用

真实的「上限」并没有官方数字那么乐观

这里有个反直觉的事实:官方说 100 万 token 上限,不代表你塞 100 万 token AI 就能用得很好

行业实测(包括 Anthropic、OpenAI 自己的论文)都承认:

  1. 前 30% 和后 30% 记得最清——中间部分容易被「遗忘」(叫 lost in the middle 现象)
  2. 超过 50% 容量后,质量会逐步下降——能用但精度变差
  3. 复杂推理任务对长上下文更敏感——简单总结类还行,多步推理就容易出错

实用建议:真要塞长文档,控制在模型上限的 50% 以内最稳。

详细的长上下文写作技巧可以看长上下文 prompt 怎么写

5 个省 token 的实用技巧

token 不光决定能不能装下,还决定调 API 的费用。学会省 token 能省下真金白银。

技巧 1:删掉客套话

❌ 「您好,麻烦请帮我一下,谢谢您的辛苦工作」(25 token) ✅ 「请」(1 token)

AI 不需要你客气。

技巧 2:用缩写和简称

❌ 「人工智能大语言模型」(10+ token) ✅ 「LLM」(2 token)

只要 AI 能理解你的缩写,就大胆用。

技巧 3:用结构化代替散文

❌ 散文式描述:「我是产品经理,工作 3 年,主要做 To B 工具,目前遇到的问题是用户活跃度低,希望你帮我分析原因并给出建议……」

✅ 结构化:

📋 Prompt 模板

背景:

  • 我:B 端产品经理,3 年经验
  • 产品:B 端工具
  • 问题:用户活跃度低

要求:分析原因 + 给建议

省 token,AI 反而看得更清楚。

技巧 4:长文档先精简再喂

如果你有一份 100 页 PDF 要让 AI 分析,先:

  1. 自己挑出最相关的 10-20 页
  2. 删掉页眉页脚、目录、参考文献
  3. 转纯文本(不要 Word 格式,会带很多隐藏字符)

能把 token 用量砍到原来的 1/5。

技巧 5:合理使用Prompt 模板和变量

模板化之后,固定指令不会重复写。比如同样翻译任务,散写要 50 token,模板化后变量替换只要 30 token。

一个直观对比:同样的需求,不同写法的 token 消耗

任务:让 AI 总结一篇 3000 字的新闻报道

版本 A:松散写法(约 240 token 指令 + 5000 token 全文)

您好,我现在有一篇新闻报道想麻烦您帮我看看。我希望您能帮我做一个总结,把里面最重要的信息给我提炼出来,最好是用比较容易懂的方式来写……

版本 B:精简写法(约 60 token 指令 + 5000 token 全文)

📋 Prompt 模板

总结下面新闻的核心信息。

要求:

  • 3 个 bullet point
  • 每个 ≤ 30 字
  • 第一行用一句话点出主旨

新闻: [粘贴全文]

A 比 B 多花 180 token——单次差不大,但如果你一天用 100 次,一年就是 660 万 token,按 GPT-5 的价格能省一两顿火锅钱。

常见问题

Q1:上下文窗口越大越好吗?

不一定。大窗口=更贵 + 更慢。日常 1 万 token 以下的需求,用普通模型反而更划算。Anthropic 官方实测显示:大多数日常任务在 32k token 以内就能搞定。

Q2:超过上限会怎样?

两种结果:

  1. API 直接报错(开发者最常遇到,会返回 token limit exceeded)
  2. 网页版自动截断(ChatGPT、Claude 网页会把最早的对话「忘掉」,你会感觉 AI 突然「失忆」)

Q3:图片、PDF 算 token 吗?

算。一张图片大概 1000-5000 token(看分辨率),PDF 按里面的文字内容 + 图片单独算。如果你用 Claude 上传 100 页 PDF,可能直接吃掉 30-50 万 token。

Q4:长上下文 prompt和 token 限制什么关系?

长上下文 prompt 是「在 token 限制内最大化利用窗口」的技巧。即使 100 万窗口,怎么排布内容、把什么放前面,都直接影响效果。

Q5:写 prompt 模板的时候要不要管 token?

要。模板里多余的客套、重复的指令都是浪费。每条模板上线前用 OpenAI tokenizer 测一下,能省 20-50% 很常见。

下一步

理解了 token 和上下文长度,建议你继续:

  1. 长上下文 prompt 怎么写 — 学会在大窗口里把内容排好
  2. Prompt 模板和变量怎么用 — 写省 token 的可复用 prompt
  3. Prompt 工程是什么 — 把 token 优化纳入整体方法论
  4. Claude 是什么 / 国产 AI 大全 — 按 token 容量选最合适的模型

最后给小白一个心法:token 不是越省越好,也不是越多越好。核心是「让你的 prompt 信息密度尽量高」——同样表达一件事,用更少的 token 说清,AI 反而理解得更准。