EAGLE 3.1 发布：修复注意力漂移，提升 LLM 推理速度与稳定性，已集成 vLLM

一句话看懂

EAGLE 3.1 通过两项架构修复，解决了推测解码在长上下文和不同模板下的注意力漂移问题，在 Kimi K2.6 上实现 2 倍加速，已集成 vLLM v0.22.0。

详细发生了什么

推测解码是一种加速大语言模型推理的技术：一个小型草稿模型快速生成多个 token，大型目标模型并行验证。如果 token 被接受，推理速度提升；如果被拒绝，系统优雅回退。EAGLE 系列（EAGLE 1/2/3）已成为研究和生产中最广泛采用的推测解码算法之一。

但在实际部署中，EAGLE 3 在不同聊天模板、长上下文输入或分布外系统提示下性能下降。EAGLE 团队将原因追溯到注意力漂移：随着推测深度增加，草稿模型逐渐将注意力从原始上下文转向自己生成的 token。具体表现为：融合输入表示中高层隐藏状态主导草稿输入，以及隐藏状态幅度因未归一化的残差路径而增长。

EAGLE 3.1 引入两项架构改进：

FC 归一化：在每个目标隐藏状态之后、FC 层之前应用归一化，保持隐藏状态幅度有界。
后归一化隐藏状态反馈：将归一化后的隐藏状态输入下一步解码，使草稿模型行为更像递归调用而非简单附加层。

与 EAGLE 3 相比，EAGLE 3.1 在训练-推理外推、长上下文鲁棒性、聊天模板和系统提示变化适应性方面均有提升。在长上下文任务中，接受长度最高提升 2 倍。

EAGLE 3.1 已集成到 vLLM（v0.22.0），作为 EAGLE 3 的配置驱动扩展，完全向后兼容。团队还基于 TorchSpec 和 vLLM 训练并开源了 Kimi K2.6 的 EAGLE 3.1 草稿模型（HuggingFace 上可获取）。在 SPEED-Bench 编码数据集上，Kimi K2.6 使用 EAGLE 3.1 在并发 1 时吞吐量提升 2.03 倍，并发 4 时 1.71 倍，并发 16 时 1.66 倍。

中文圈视角

EAGLE 3.1 对中文用户有直接价值：

Kimi K2.6 草稿模型已开源：月之暗面（Moonshot AI）的 Kimi K2.6 是中文强模型，EAGLE 3.1 专门为其训练了草稿模型，国内开发者可直接在 HuggingFace 下载使用，无需额外训练。
vLLM 集成即开即用：vLLM 是国产推理框架（由加州大学伯克利分校开发，但国内社区活跃），EAGLE 3.1 已合并到主线，通过配置即可启用，降低部署门槛。
长上下文场景受益明显：中文长文档处理（如合同分析、论文阅读）常见，EAGLE 3.1 在长上下文下接受长度翻倍，意味着更快的生成速度。
平替对比：国内类似推测解码方案如 DeepSeek 的 MLA 优化、智谱的 GLM 加速，但 EAGLE 3.1 作为通用算法可适配多种模型，且开源生态更成熟。
注意：需使用 vLLM v0.22.0+，且依赖 CUDA 环境，国内云服务商（如阿里云 PAI、腾讯云 TI）已支持 vLLM，可直接部署。

几条值得记住的细节

EAGLE 3.1 修复了注意力漂移，根源是草稿模型在深度推测时注意力从原始上下文偏移到自身生成 token。
两项修复：FC 归一化 + 后归一化隐藏状态反馈，保持隐藏状态幅度稳定。
在 Kimi K2.6 上，长上下文接受长度最高提升 2 倍，并发 1 时吞吐量提升 2.03 倍。
已集成 vLLM v0.22.0，完全向后兼容 EAGLE 3 检查点。
草稿模型已开源：HuggingFace 上 lightseekorg/kimi-k2.6-eagle3.1-mla。

一句话总结

EAGLE 3.1 让推测解码在生产环境中更稳定，中文用户可立即在 Kimi K2.6 上获得 2 倍加速，无需额外训练。