NVIDIA 发布 Gated DeltaNet-2:解耦擦除与写入的线性注意力层,长上下文检索大幅提升
NVIDIA 开源 Gated DeltaNet-2,一种新型线性注意力层,通过通道级擦除门和写入门解耦记忆编辑,在 1.3B 参数、100B tokens 训练下超越 Mamba-2/3、KDA 等模型,长上下文检索任务提升显著。了解其技术原理、性能对比及对中文开发者的实用价值。
一句话看懂
NVIDIA 开源 Gated DeltaNet-2,用两个独立通道门替代传统标量门,解耦记忆擦除与写入,在长上下文检索任务上大幅领先现有线性注意力模型。
详细发生了什么
线性注意力通过固定大小的循环状态替代 softmax attention 的无界 KV cache,实现线性时间序列混合和常数内存解码。但如何编辑压缩记忆而不破坏已有关联一直是难点。此前 Gated DeltaNet、KDA 等 delta-rule 模型使用单个标量门同时控制擦除旧内容和写入新内容,限制了建模能力。
NVIDIA 发布的 Gated DeltaNet-2 将这一操作拆分为两个通道级门:擦除门 b_t 作用于 key 轴,决定从衰减后的状态中擦除哪些坐标;写入门 w_t 作用于 value 轴,决定新内容写入哪些坐标。两者均由 token 表示的 sigmoid 投影生成。更新公式为:
S_t = (I − k_t (b_t ⊙ k_t)⊤) D_t S_{t-1} + k_t (w_t ⊙ v_t)⊤
其中 D_t 是来自 KDA 的通道级衰减。当两个门退化为同一标量时,恢复为 KDA;当衰减也退化为标量时,恢复为 Gated DeltaNet。
在 1.3B 参数、100B FineWeb-Edu tokens 训练下,Gated DeltaNet-2 在语言建模、常识推理和长上下文检索上全面超越 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3。最大提升出现在 RULER 长上下文检索:S-NIAH-2 从 89.0 升至 93.0,S-NIAH-3 从 63.2 跃至 89.8,MK-NIAH-1 从 28.0 升至 37.8。
代码已开源在 GitHub(NVlabs/GatedDeltaNet-2),基于 PyTorch 和 Triton 内核,支持 chunkwise 训练和 gate-aware 反向传播。
中文圈视角
对国内开发者意味着什么?
-
长上下文场景的实用价值:Gated DeltaNet-2 在 RULER 多键检索上的大幅提升,对中文长文档问答、代码仓库分析、多轮对话记忆等场景有直接意义。国内模型如 DeepSeek、Kimi 也在探索线性注意力,但当前主流仍是 softmax attention 加长上下文扩展(如 YaRN、NTK-aware)。Gated DeltaNet-2 提供了一条更高效的路:线性注意力加解耦门控,无需 attention 的 O(n²) 计算。
-
与国产模型的对比:国内线性注意力工作如 Lightning Attention(Haiper AI)、TransNormer(上海 AI Lab)等,多在门控机制上做简化。Gated DeltaNet-2 的通道级解耦设计更精细,但训练成本也更高(1.3B 模型需 100B tokens)。国内团队若想复现,需考虑算力门槛。
-
开源与合规:代码采用 NVIDIA Source Code License-NC(非商业),国内商业使用需注意授权。但学术研究和模型蒸馏不受限。对于中文 NLP 研究,可将其作为 backbone 替换实验的候选。
-
中文社区盲点:目前国内对线性注意力的讨论多集中在 Mamba 系列,对 delta-rule 变体关注较少。Gated DeltaNet-2 的 gate-aware 反向传播推导值得深入,可能启发更高效的训练策略。
几条值得记住的细节
- 两个门:擦除门 b_t 和写入门 w_t 均为通道级向量,由 sigmoid 投影生成,维度分别为 d_k 和 d_v。
- 训练配置:1.3B 参数,100B FineWeb-Edu tokens,训练长度 4K tokens,混合模型使用 2K SWA 窗口。
- 性能亮点:在 RULER S-NIAH-3(2K)上,Gated DeltaNet-2 得分 89.8,比 KDA 的 63.2 提升 42%。
- 代码可用:GitHub 仓库包含 Dockerfile、训练脚本和 lit_gpt 模型定义,支持 Triton 内核。
- 混合变体:插入 Sliding-Window Attention 后,在真实世界检索任务上平均分从 29.88 升至 42.28。
一句话总结
Gated DeltaNet-2 用更精细的门控机制释放了线性注意力的记忆编辑潜力,长上下文检索能力显著领先,值得关注线性注意力路线的开发者深入研究。