Prompt token 是什么？提示词长度上限 1 篇懂

一句话说清

Prompt token 是 AI 把你输入的文字「切成的最小处理单位」——一个 token 不一定是一个字，可能是半个汉字、一个英文单词、一个标点。所有主流 AI 工具都按 token 算上下文长度和费用，超了就会被截断或报错。

打个直观比方：你以为你给 AI 发了 1000 字，AI 看到的可能是 1500 个 token。模型有个「窗口大小」，比如 GPT-5 一次能处理 40 万 token，DeepSeek V3 是 13 万 token，Claude 4.7 是 100 万。超过这个数，前面的内容会被切掉。

读完这篇你会知道：token 到底怎么算、prompt 长度上限的真相、主流 AI 的 token 限制对比、以及怎么省 token。

用一个生活场景理解

你去一家自助餐厅，老板告诉你「一个盘子最多装 500 克」。

你想吃一只整鸡——太大装不下，要切开装两盘
你想吃 10 颗虾——刚好够，一盘解决
你想吃 1000 克牛排——超盘，要么少装要么换大盘

这个「盘子的容量」就是 AI 模型的 context window（上下文窗口），单位是 token。你的 prompt 就是要往盘子里装的食物。

token 和「字」的关系不是 1:1：

一个常用汉字 ≈ 1-2 个 token
一个英文短词（如 “the”）≈ 1 个 token
一个英文长词（如 “internationalization”）≈ 3-4 个 token
一个标点符号 ≈ 1 个 token
一个 emoji ≈ 2-4 个 token

简单换算：1000 个中文字 ≈ 1500-2000 个 token；1000 个英文单词 ≈ 1300-1500 个 token。

token 到底怎么切出来的

每家 AI 用的 tokenizer（切词器）不太一样，但大致逻辑相同：

英文：按「常见词根 + 后缀」拆

unbelievable 会被拆成 un + believ + able，3 个 token。这种叫 BPE（Byte Pair Encoding）算法。

中文：按「字」或「常用词」拆

「你好」可能是 1 个 token（GPT 系列把高频词当一个），「人工智能」可能是 2 个 token。罕见汉字（比如「饕餮」）有时会被拆成 2-3 个 token。

代码 / JSON：按「符号块」拆

function getName() 会被拆成 function + getName + ()，3-4 个 token。

emoji 和符号

🤖 这种 emoji 一般算 2-4 个 token。表情包发 prompt 会显著吃 token。

实测工具推荐：

OpenAI 官方 tokenizer：platform.openai.com/tokenizer — 粘贴文字，立刻看 token 数量
Claude tokenizer（Anthropic 工作台内置）：登录 console.anthropic.com 后可以测
国产模型：百度文心、阿里通义、月之暗面 Kimi 都在 API 文档里提供 token 计算方法

主流 AI 工具的 token 限制对比

数据基于 2026 年 5 月各家官方公开信息（具体以最新公告为准）：

模型	上下文窗口（输入 token）	单次输出上限	大概等于多少中文字
GPT-5	40 万	12.8 万	20-25 万字（≈ 4 本中长篇小说）
Claude Opus 4.7	100 万	6.4 万	50-65 万字（≈ 10 本小说）
Gemini 2.5 Pro	200 万	6.4 万	100-130 万字（≈ 20 本小说）
DeepSeek V3	13 万	3.2 万	6-8 万字
Kimi K2	256 万	12.8 万	130-160 万字
通义千问 3	100 万	3.2 万	50-65 万字
豆包 1.6	25.6 万	3.2 万	13-16 万字

给小白的判断标准：

日常聊天、写邮件、改文章：任何模型都够用
整本书翻译、长论文分析：选 Claude 4.7、Gemini 2.5 Pro、Kimi K2
整个代码仓库扔进去让 AI 读：用 Claude 4.7 的 100 万 token 版本最稳

具体怎么选可以看国产 AI 大全和Claude 怎么用。

真实的「上限」并没有官方数字那么乐观

这里有个反直觉的事实：官方说 100 万 token 上限，不代表你塞 100 万 token AI 就能用得很好。

行业实测（包括 Anthropic、OpenAI 自己的论文）都承认：

前 30% 和后 30% 记得最清——中间部分容易被「遗忘」（叫 lost in the middle 现象）
超过 50% 容量后，质量会逐步下降——能用但精度变差
复杂推理任务对长上下文更敏感——简单总结类还行，多步推理就容易出错

实用建议：真要塞长文档，控制在模型上限的 50% 以内最稳。

详细的长上下文写作技巧可以看长上下文 prompt 怎么写。

5 个省 token 的实用技巧

token 不光决定能不能装下，还决定调 API 的费用。学会省 token 能省下真金白银。

技巧 1：删掉客套话

❌ 「您好，麻烦请帮我一下，谢谢您的辛苦工作」（25 token） ✅ 「请」（1 token）

AI 不需要你客气。

技巧 2：用缩写和简称

❌ 「人工智能大语言模型」（10+ token） ✅ 「LLM」（2 token）

只要 AI 能理解你的缩写，就大胆用。

技巧 3：用结构化代替散文

❌ 散文式描述：「我是产品经理，工作 3 年，主要做 To B 工具，目前遇到的问题是用户活跃度低，希望你帮我分析原因并给出建议……」

✅ 结构化：

📋 Prompt 模板

背景：

我：B 端产品经理，3 年经验
产品：B 端工具
问题：用户活跃度低

要求：分析原因 + 给建议

省 token，AI 反而看得更清楚。

技巧 4：长文档先精简再喂

如果你有一份 100 页 PDF 要让 AI 分析，先：

自己挑出最相关的 10-20 页
删掉页眉页脚、目录、参考文献
转纯文本（不要 Word 格式，会带很多隐藏字符）

能把 token 用量砍到原来的 1/5。

技巧 5：合理使用Prompt 模板和变量

模板化之后，固定指令不会重复写。比如同样翻译任务，散写要 50 token，模板化后变量替换只要 30 token。

一个直观对比：同样的需求，不同写法的 token 消耗

任务：让 AI 总结一篇 3000 字的新闻报道

版本 A：松散写法（约 240 token 指令 + 5000 token 全文）

您好，我现在有一篇新闻报道想麻烦您帮我看看。我希望您能帮我做一个总结，把里面最重要的信息给我提炼出来，最好是用比较容易懂的方式来写……

版本 B：精简写法（约 60 token 指令 + 5000 token 全文）

📋 Prompt 模板

总结下面新闻的核心信息。

要求：

3 个 bullet point
每个 ≤ 30 字
第一行用一句话点出主旨

新闻： [粘贴全文]

A 比 B 多花 180 token——单次差不大，但如果你一天用 100 次，一年就是 660 万 token，按 GPT-5 的价格能省一两顿火锅钱。

常见问题

Q1：上下文窗口越大越好吗？

不一定。大窗口=更贵 + 更慢。日常 1 万 token 以下的需求，用普通模型反而更划算。Anthropic 官方实测显示：大多数日常任务在 32k token 以内就能搞定。

Q2：超过上限会怎样？

两种结果：

API 直接报错（开发者最常遇到，会返回 token limit exceeded）
网页版自动截断（ChatGPT、Claude 网页会把最早的对话「忘掉」，你会感觉 AI 突然「失忆」）

Q3：图片、PDF 算 token 吗？

算。一张图片大概 1000-5000 token（看分辨率），PDF 按里面的文字内容 + 图片单独算。如果你用 Claude 上传 100 页 PDF，可能直接吃掉 30-50 万 token。

Q4：长上下文 prompt和 token 限制什么关系？

长上下文 prompt 是「在 token 限制内最大化利用窗口」的技巧。即使 100 万窗口，怎么排布内容、把什么放前面，都直接影响效果。

Q5：写 prompt 模板的时候要不要管 token？

要。模板里多余的客套、重复的指令都是浪费。每条模板上线前用 OpenAI tokenizer 测一下，能省 20-50% 很常见。

下一步

理解了 token 和上下文长度，建议你继续：

长上下文 prompt 怎么写 — 学会在大窗口里把内容排好
Prompt 模板和变量怎么用 — 写省 token 的可复用 prompt
Prompt 工程是什么 — 把 token 优化纳入整体方法论
Claude 是什么 / 国产 AI 大全 — 按 token 容量选最合适的模型

最后给小白一个心法：token 不是越省越好，也不是越多越好。核心是「让你的 prompt 信息密度尽量高」——同样表达一件事，用更少的 token 说清，AI 反而理解得更准。