AI 快讯 编译自 simon_willison #工具评测#LLM#性能
10 tokens per second到底有多快?一个在线模拟器让你直观感受LLM输出速度
Mike Veerman开发了一个HTML小工具,模拟LLM从5到800 tokens/second的输出速度。本文介绍这个工具的使用方法,并探讨对中文用户选择模型、评估性能的实际意义。
编译发布 2026/05/20 原文发布 2026/05/20
一句话看懂
[一个在线模拟器让你直观感受5到800 tokens/second的LLM输出速度,帮你理解模型广告中的数字到底意味着什么]
详细发生了什么
Mike Veerman开发了一个轻量级HTML应用(在线体验,源码),它能模拟LLM token输出速度,范围从5 tokens/second到800 tokens/second。
当你看到某个模型宣传“30 tokens/second”时,这个工具可以让你直观地看到文字以多快的速度出现在屏幕上。它没有复杂的配置,打开网页就能选择速度并观察实时输出。
这个工具由Simon Willison在博客中推荐,并源自Hacker News上的讨论。对于经常比较模型性能的开发者或AI爱好者来说,这是一个非常实用的参考工具。
中文圈视角
国内用户可以直接访问这个网页,无需梯子。它完全在浏览器本地运行,不涉及数据上传,所以没有隐私或合规风险。
对于中文用户,这个工具有两个直接用途:
- 评估国产模型:当你看到DeepSeek、Kimi、通义千问等模型宣称的推理速度时(例如“每秒输出50 tokens”),可以用这个工具模拟,对比实际体验是否符合预期。
- 选择API或本地模型:本地部署的模型(如Qwen2.5、ChatGLM)速度通常受硬件限制,这个工具能帮你设定一个“可接受”的速度阈值——比如低于20 tokens/second可能会让对话显得卡顿。
目前中文社区很少讨论“速度感知”这个维度,大家更关注benchmark分数。但这个工具提醒我们:用户体验最终取决于实际输出速度,而不仅仅是理论峰值。
几条值得记住的细节
- 模拟速度范围:5 tokens/second 到 800 tokens/second,覆盖从慢速本地模型到高速云端API。
- 工具完全基于HTML/JavaScript,无需安装,打开浏览器即可使用。
- 源码托管在GitHub,可以自行修改或集成到其他项目。
- 推荐人Simon Willison是知名Python/数据新闻开发者,他的推荐增加了工具的可信度。
- 适合在选购模型、调整推理参数或对比不同服务时作为参考。
一句话总结
下次看到模型宣传“每秒X tokens”,先打开这个模拟器感受一下,再决定它是否适合你的使用场景。