NVIDIA 开源 Nemotron-Labs-TwoTower：扩散语言模型，2.42 倍吞吐量，保留 98.7% 质量

一句话看懂

NVIDIA 开源 Nemotron-Labs-TwoTower，一种双塔扩散语言模型，在保留 98.7% 基准质量的同时，将生成吞吐量提升至自回归模型的 2.42 倍。

详细发生了什么

NVIDIA 发布了 Nemotron-Labs-TwoTower，一种基于冻结自回归骨干的扩散语言模型。传统自回归模型逐 token 串行解码，限制了吞吐量。TwoTower 采用离散扩散方法，并行生成 token 并迭代精炼。其核心创新是将扩散过程拆分为两个塔：一个冻结的自回归上下文塔和一个可训练的降噪塔。上下文塔保留骨干网络的因果能力，降噪塔通过逐层交叉注意力获取多尺度表示。

模型基于 Nemotron-3-Nano-30B-A3B 骨干，该骨干混合了 Mamba-2、自注意力和 MoE 层。每个塔有 52 层，总参数量约 60B，每 token 激活约 3B。降噪塔在约 2.1T token 上训练，而骨干预训练使用了 25T token。默认配置（γ=0.8，S=16）下，在 2×H100 GPU 上达到 2.42 倍吞吐量，MMLU 等通用知识任务得分几乎持平，代码和数学任务略有下降。

中文圈视角

对中文用户来说，这个模型有几个值得关注的要点。首先，它是开源权重，许可证允许商业使用，但需要留意 NVIDIA Nemotron Open Model License 的具体条款，尤其是关于衍生模型分发的要求。国内团队可以直接下载权重在自有硬件上部署，但完整双塔推理需要 2 张 80GB GPU，成本不低。

与国产模型对比：DeepSeek 的 DeepSeek-R1 等模型在推理时也采用并行策略，但 TwoTower 的扩散方法更底层。对于中文内容生成（如写作、对话），TwoTower 的通用知识保留较好，但代码和数学能力下降可能影响编程辅助场景。国内类似的开源扩散语言模型较少，TwoTower 提供了一个可研究的基线。

监管方面：模型权重可本地部署，不涉及数据出境，但使用前需评估内容安全风险。NVIDIA 未提供中文优化版本，中文生成质量需自行测试。

几条值得记住的细节

双塔架构：上下文塔冻结，降噪塔训练，层对齐交叉注意力替代传统仅传递最后隐藏状态的方式。
默认配置下（γ=0.8，S=16），质量保留 98.7%，吞吐量 2.42 倍；降低 γ 可进一步提升吞吐量但质量下降。
一个 checkpoint 支持三种推理模式：扩散（generate_mask_diffusion）、模拟自回归（generate_mock_ar）和自回归（generate_ar）。
完整双塔推理需要 2 张 H100 GPU，每张约 59GB 显存（BF16）；自回归模式可单卡运行。
降噪器训练仅用 2.1T token，远少于骨干的 25T，训练成本相对较低。

一句话总结

如果你需要高吞吐量的文本生成且能接受 1-2% 的质量损失，TwoTower 是一个值得尝试的开源选择，但需要双卡 GPU 和一定的工程适配。