NVIDIA 发布 Gated DeltaNet-2：解耦擦除与写入的线性注意力层，长上下文检索大幅提升

一句话看懂

NVIDIA 开源 Gated DeltaNet-2，用两个独立通道门替代传统标量门，解耦记忆擦除与写入，在长上下文检索任务上大幅领先现有线性注意力模型。

详细发生了什么

线性注意力通过固定大小的循环状态替代 softmax attention 的无界 KV cache，实现线性时间序列混合和常数内存解码。但如何编辑压缩记忆而不破坏已有关联一直是难点。此前 Gated DeltaNet、KDA 等 delta-rule 模型使用单个标量门同时控制擦除旧内容和写入新内容，限制了建模能力。

NVIDIA 发布的 Gated DeltaNet-2 将这一操作拆分为两个通道级门：擦除门 b_t 作用于 key 轴，决定从衰减后的状态中擦除哪些坐标；写入门 w_t 作用于 value 轴，决定新内容写入哪些坐标。两者均由 token 表示的 sigmoid 投影生成。更新公式为：

S_t = (I − k_t (b_t ⊙ k_t)⊤) D_t S_{t-1} + k_t (w_t ⊙ v_t)⊤

其中 D_t 是来自 KDA 的通道级衰减。当两个门退化为同一标量时，恢复为 KDA；当衰减也退化为标量时，恢复为 Gated DeltaNet。

在 1.3B 参数、100B FineWeb-Edu tokens 训练下，Gated DeltaNet-2 在语言建模、常识推理和长上下文检索上全面超越 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3。最大提升出现在 RULER 长上下文检索：S-NIAH-2 从 89.0 升至 93.0，S-NIAH-3 从 63.2 跃至 89.8，MK-NIAH-1 从 28.0 升至 37.8。

代码已开源在 GitHub（NVlabs/GatedDeltaNet-2），基于 PyTorch 和 Triton 内核，支持 chunkwise 训练和 gate-aware 反向传播。

中文圈视角

对国内开发者意味着什么？

长上下文场景的实用价值：Gated DeltaNet-2 在 RULER 多键检索上的大幅提升，对中文长文档问答、代码仓库分析、多轮对话记忆等场景有直接意义。国内模型如 DeepSeek、Kimi 也在探索线性注意力，但当前主流仍是 softmax attention 加长上下文扩展（如 YaRN、NTK-aware）。Gated DeltaNet-2 提供了一条更高效的路：线性注意力加解耦门控，无需 attention 的 O(n²) 计算。
与国产模型的对比：国内线性注意力工作如 Lightning Attention（Haiper AI）、TransNormer（上海 AI Lab）等，多在门控机制上做简化。Gated DeltaNet-2 的通道级解耦设计更精细，但训练成本也更高（1.3B 模型需 100B tokens）。国内团队若想复现，需考虑算力门槛。
开源与合规：代码采用 NVIDIA Source Code License-NC（非商业），国内商业使用需注意授权。但学术研究和模型蒸馏不受限。对于中文 NLP 研究，可将其作为 backbone 替换实验的候选。
中文社区盲点：目前国内对线性注意力的讨论多集中在 Mamba 系列，对 delta-rule 变体关注较少。Gated DeltaNet-2 的 gate-aware 反向传播推导值得深入，可能启发更高效的训练策略。

几条值得记住的细节

两个门：擦除门 b_t 和写入门 w_t 均为通道级向量，由 sigmoid 投影生成，维度分别为 d_k 和 d_v。
训练配置：1.3B 参数，100B FineWeb-Edu tokens，训练长度 4K tokens，混合模型使用 2K SWA 窗口。
性能亮点：在 RULER S-NIAH-3（2K）上，Gated DeltaNet-2 得分 89.8，比 KDA 的 63.2 提升 42%。
代码可用：GitHub 仓库包含 Dockerfile、训练脚本和 lit_gpt 模型定义，支持 Triton 内核。
混合变体：插入 Sliding-Window Attention 后，在真实世界检索任务上平均分从 29.88 升至 42.28。

一句话总结

Gated DeltaNet-2 用更精细的门控机制释放了线性注意力的记忆编辑潜力，长上下文检索能力显著领先，值得关注线性注意力路线的开发者深入研究。