AI 快讯 编译自 marktechpost #推测解码#模型加速#vLLM

EAGLE 3.1 发布:修复注意力漂移,提升 LLM 推理速度与稳定性,已集成 vLLM

EAGLE 团队联合 vLLM 和 TorchSpec 发布 EAGLE 3.1,通过 FC 归一化和后归一化隐藏状态反馈,解决推测解码中的注意力漂移问题。在 Kimi K2.6 上实现 2 倍加速,长上下文场景接受长度翻倍,已开源并集成 vLLM v0.22.0。

编译发布 2026/05/27 原文发布 2026/05/27

一句话看懂

EAGLE 3.1 通过两项架构修复,解决了推测解码在长上下文和不同模板下的注意力漂移问题,在 Kimi K2.6 上实现 2 倍加速,已集成 vLLM v0.22.0。

详细发生了什么

推测解码是一种加速大语言模型推理的技术:一个小型草稿模型快速生成多个 token,大型目标模型并行验证。如果 token 被接受,推理速度提升;如果被拒绝,系统优雅回退。EAGLE 系列(EAGLE 1/2/3)已成为研究和生产中最广泛采用的推测解码算法之一。

但在实际部署中,EAGLE 3 在不同聊天模板、长上下文输入或分布外系统提示下性能下降。EAGLE 团队将原因追溯到注意力漂移:随着推测深度增加,草稿模型逐渐将注意力从原始上下文转向自己生成的 token。具体表现为:融合输入表示中高层隐藏状态主导草稿输入,以及隐藏状态幅度因未归一化的残差路径而增长。

EAGLE 3.1 引入两项架构改进:

  1. FC 归一化:在每个目标隐藏状态之后、FC 层之前应用归一化,保持隐藏状态幅度有界。
  2. 后归一化隐藏状态反馈:将归一化后的隐藏状态输入下一步解码,使草稿模型行为更像递归调用而非简单附加层。

与 EAGLE 3 相比,EAGLE 3.1 在训练-推理外推、长上下文鲁棒性、聊天模板和系统提示变化适应性方面均有提升。在长上下文任务中,接受长度最高提升 2 倍。

EAGLE 3.1 已集成到 vLLM(v0.22.0),作为 EAGLE 3 的配置驱动扩展,完全向后兼容。团队还基于 TorchSpec 和 vLLM 训练并开源了 Kimi K2.6 的 EAGLE 3.1 草稿模型(HuggingFace 上可获取)。在 SPEED-Bench 编码数据集上,Kimi K2.6 使用 EAGLE 3.1 在并发 1 时吞吐量提升 2.03 倍,并发 4 时 1.71 倍,并发 16 时 1.66 倍。

中文圈视角

EAGLE 3.1 对中文用户有直接价值:

  • Kimi K2.6 草稿模型已开源:月之暗面(Moonshot AI)的 Kimi K2.6 是中文强模型,EAGLE 3.1 专门为其训练了草稿模型,国内开发者可直接在 HuggingFace 下载使用,无需额外训练。
  • vLLM 集成即开即用:vLLM 是国产推理框架(由加州大学伯克利分校开发,但国内社区活跃),EAGLE 3.1 已合并到主线,通过配置即可启用,降低部署门槛。
  • 长上下文场景受益明显:中文长文档处理(如合同分析、论文阅读)常见,EAGLE 3.1 在长上下文下接受长度翻倍,意味着更快的生成速度。
  • 平替对比:国内类似推测解码方案如 DeepSeek 的 MLA 优化、智谱的 GLM 加速,但 EAGLE 3.1 作为通用算法可适配多种模型,且开源生态更成熟。
  • 注意:需使用 vLLM v0.22.0+,且依赖 CUDA 环境,国内云服务商(如阿里云 PAI、腾讯云 TI)已支持 vLLM,可直接部署。

几条值得记住的细节

  • EAGLE 3.1 修复了注意力漂移,根源是草稿模型在深度推测时注意力从原始上下文偏移到自身生成 token。
  • 两项修复:FC 归一化 + 后归一化隐藏状态反馈,保持隐藏状态幅度稳定。
  • 在 Kimi K2.6 上,长上下文接受长度最高提升 2 倍,并发 1 时吞吐量提升 2.03 倍。
  • 已集成 vLLM v0.22.0,完全向后兼容 EAGLE 3 检查点。
  • 草稿模型已开源:HuggingFace 上 lightseekorg/kimi-k2.6-eagle3.1-mla

一句话总结

EAGLE 3.1 让推测解码在生产环境中更稳定,中文用户可立即在 Kimi K2.6 上获得 2 倍加速,无需额外训练。