10 tokens per second到底有多快？一个在线模拟器让你直观感受LLM输出速度

一句话看懂

[一个在线模拟器让你直观感受5到800 tokens/second的LLM输出速度，帮你理解模型广告中的数字到底意味着什么]

Mike Veerman开发了一个轻量级HTML应用（在线体验，源码），它能模拟LLM token输出速度，范围从5 tokens/second到800 tokens/second。

当你看到某个模型宣传“30 tokens/second”时，这个工具可以让你直观地看到文字以多快的速度出现在屏幕上。它没有复杂的配置，打开网页就能选择速度并观察实时输出。

这个工具由Simon Willison在博客中推荐，并源自Hacker News上的讨论。对于经常比较模型性能的开发者或AI爱好者来说，这是一个非常实用的参考工具。

国内用户可以直接访问这个网页，无需梯子。它完全在浏览器本地运行，不涉及数据上传，所以没有隐私或合规风险。

对于中文用户，这个工具有两个直接用途：

评估国产模型：当你看到DeepSeek、Kimi、通义千问等模型宣称的推理速度时（例如“每秒输出50 tokens”），可以用这个工具模拟，对比实际体验是否符合预期。
选择API或本地模型：本地部署的模型（如Qwen2.5、ChatGLM）速度通常受硬件限制，这个工具能帮你设定一个“可接受”的速度阈值——比如低于20 tokens/second可能会让对话显得卡顿。

目前中文社区很少讨论“速度感知”这个维度，大家更关注benchmark分数。但这个工具提醒我们：用户体验最终取决于实际输出速度，而不仅仅是理论峰值。

下次看到模型宣传“每秒X tokens”，先打开这个模拟器感受一下，再决定它是否适合你的使用场景。