🤖 AI 跟我学 新手入门
AI 快讯 编译自 simon_willison #工具评测#LLM#性能

10 tokens per second到底有多快?一个在线模拟器让你直观感受LLM输出速度

Mike Veerman开发了一个HTML小工具,模拟LLM从5到800 tokens/second的输出速度。本文介绍这个工具的使用方法,并探讨对中文用户选择模型、评估性能的实际意义。

编译发布 2026/05/20 原文发布 2026/05/20

一句话看懂

[一个在线模拟器让你直观感受5到800 tokens/second的LLM输出速度,帮你理解模型广告中的数字到底意味着什么]

详细发生了什么

Mike Veerman开发了一个轻量级HTML应用(在线体验源码),它能模拟LLM token输出速度,范围从5 tokens/second到800 tokens/second。

当你看到某个模型宣传“30 tokens/second”时,这个工具可以让你直观地看到文字以多快的速度出现在屏幕上。它没有复杂的配置,打开网页就能选择速度并观察实时输出。

这个工具由Simon Willison在博客中推荐,并源自Hacker News上的讨论。对于经常比较模型性能的开发者或AI爱好者来说,这是一个非常实用的参考工具。

中文圈视角

国内用户可以直接访问这个网页,无需梯子。它完全在浏览器本地运行,不涉及数据上传,所以没有隐私或合规风险。

对于中文用户,这个工具有两个直接用途:

  1. 评估国产模型:当你看到DeepSeek、Kimi、通义千问等模型宣称的推理速度时(例如“每秒输出50 tokens”),可以用这个工具模拟,对比实际体验是否符合预期。
  2. 选择API或本地模型:本地部署的模型(如Qwen2.5、ChatGLM)速度通常受硬件限制,这个工具能帮你设定一个“可接受”的速度阈值——比如低于20 tokens/second可能会让对话显得卡顿。

目前中文社区很少讨论“速度感知”这个维度,大家更关注benchmark分数。但这个工具提醒我们:用户体验最终取决于实际输出速度,而不仅仅是理论峰值。

几条值得记住的细节

  • 模拟速度范围:5 tokens/second 到 800 tokens/second,覆盖从慢速本地模型到高速云端API。
  • 工具完全基于HTML/JavaScript,无需安装,打开浏览器即可使用。
  • 源码托管在GitHub,可以自行修改或集成到其他项目。
  • 推荐人Simon Willison是知名Python/数据新闻开发者,他的推荐增加了工具的可信度。
  • 适合在选购模型、调整推理参数或对比不同服务时作为参考。

一句话总结

下次看到模型宣传“每秒X tokens”,先打开这个模拟器感受一下,再决定它是否适合你的使用场景。