AI 快讯 编译自 marktechpost #模型发布#NVIDIA#扩散语言模型

NVIDIA 开源 Nemotron-Labs-TwoTower:扩散语言模型,2.42 倍吞吐量,保留 98.7% 质量

NVIDIA 发布 Nemotron-Labs-TwoTower,一种基于冻结自回归骨干的扩散语言模型,采用双塔架构实现并行解码。在 2×H100 上达到 2.42 倍生成吞吐量,质量仅下降 1.3%。开源权重,支持扩散、模拟自回归和自回归三种推理模式。

编译发布 2026/07/01 原文发布 2026/07/01

一句话看懂

NVIDIA 开源 Nemotron-Labs-TwoTower,一种双塔扩散语言模型,在保留 98.7% 基准质量的同时,将生成吞吐量提升至自回归模型的 2.42 倍。

详细发生了什么

NVIDIA 发布了 Nemotron-Labs-TwoTower,一种基于冻结自回归骨干的扩散语言模型。传统自回归模型逐 token 串行解码,限制了吞吐量。TwoTower 采用离散扩散方法,并行生成 token 并迭代精炼。其核心创新是将扩散过程拆分为两个塔:一个冻结的自回归上下文塔和一个可训练的降噪塔。上下文塔保留骨干网络的因果能力,降噪塔通过逐层交叉注意力获取多尺度表示。

模型基于 Nemotron-3-Nano-30B-A3B 骨干,该骨干混合了 Mamba-2、自注意力和 MoE 层。每个塔有 52 层,总参数量约 60B,每 token 激活约 3B。降噪塔在约 2.1T token 上训练,而骨干预训练使用了 25T token。默认配置(γ=0.8,S=16)下,在 2×H100 GPU 上达到 2.42 倍吞吐量,MMLU 等通用知识任务得分几乎持平,代码和数学任务略有下降。

中文圈视角

对中文用户来说,这个模型有几个值得关注的要点。首先,它是开源权重,许可证允许商业使用,但需要留意 NVIDIA Nemotron Open Model License 的具体条款,尤其是关于衍生模型分发的要求。国内团队可以直接下载权重在自有硬件上部署,但完整双塔推理需要 2 张 80GB GPU,成本不低。

与国产模型对比:DeepSeek 的 DeepSeek-R1 等模型在推理时也采用并行策略,但 TwoTower 的扩散方法更底层。对于中文内容生成(如写作、对话),TwoTower 的通用知识保留较好,但代码和数学能力下降可能影响编程辅助场景。国内类似的开源扩散语言模型较少,TwoTower 提供了一个可研究的基线。

监管方面:模型权重可本地部署,不涉及数据出境,但使用前需评估内容安全风险。NVIDIA 未提供中文优化版本,中文生成质量需自行测试。

几条值得记住的细节

  • 双塔架构:上下文塔冻结,降噪塔训练,层对齐交叉注意力替代传统仅传递最后隐藏状态的方式。
  • 默认配置下(γ=0.8,S=16),质量保留 98.7%,吞吐量 2.42 倍;降低 γ 可进一步提升吞吐量但质量下降。
  • 一个 checkpoint 支持三种推理模式:扩散(generate_mask_diffusion)、模拟自回归(generate_mock_ar)和自回归(generate_ar)。
  • 完整双塔推理需要 2 张 H100 GPU,每张约 59GB 显存(BF16);自回归模式可单卡运行。
  • 降噪器训练仅用 2.1T token,远少于骨干的 25T,训练成本相对较低。

一句话总结

如果你需要高吞吐量的文本生成且能接受 1-2% 的质量损失,TwoTower 是一个值得尝试的开源选择,但需要双卡 GPU 和一定的工程适配。