AI 快讯编译自 marktechpost #知识蒸馏#NVIDIA#模型优化

NVIDIA 推出 X-Token：跨分词器知识蒸馏新方法，在 Llama-3.2-1B 上平均提升 3.82 个点

NVIDIA 提出 X-Token 方法，解决跨分词器知识蒸馏中 GOLD 的结构性缺陷，无需额外可训练组件，在 GSM8k 上将准确率从 2.56 提升至 15.54。了解其原理、优势及对中文模型蒸馏的启示。

编译发布 2026/05/29 原文发布 2026/05/29

一句话看懂

NVIDIA 推出 X-Token，一种无需共享分词器即可将大模型知识迁移给小模型的新方法，在数学推理任务上显著超越此前最优方案 GOLD。

详细发生了什么

知识蒸馏（KD）通常要求教师和学生模型使用相同的分词器（tokenizer），否则无法直接对齐 token 位置和概率分布。这限制了开发者选用更强但分词器不兼容的教师模型，例如 Llama-3.2-1B 无法利用 Phi-4-mini 或 Qwen3-4B 的知识。

NVIDIA 研究团队提出的 X-Token 是一种即插即用的蒸馏损失函数替代方案，无需额外可训练组件或架构改动。它通过三个核心组件解决跨分词器对齐问题：

Span Alignment：使用动态规划将教师和学生的 token 序列分组为语义相同的片段，避免 TRL 实现中因字节级差异（如 <bos> 标记）导致的对齐失败。
Projection Matrix W：构建一个确定性投影矩阵，将学生词汇表上的概率分布映射到教师词汇表空间。矩阵通过精确匹配和多 token 规则（最多 4 个子 token，权重指数衰减）填充，并保证概率守恒。
P-KL 与 H-KL 两种损失：P-KL 完全移除分区，通过投影直接计算 KL 散度，消除 GOLD 中不常见 token 的噪声和抑制梯度；H-KL 在结构对齐良好时放松匹配标准，利用 W 扩展公共子集，保留更细粒度的监督信号。

实验表明，在 Llama-3.2-1B 上使用 Qwen3-4B 作为教师时，X-Token 的 P-KL 将 GSM8k 准确率从 GOLD 的 2.56 提升至 15.54，平均在 8 个基准上超越 GOLD 3.82 个点。

中文圈视角

X-Token 对中文 AI 社区有直接参考价值：

跨模型蒸馏更灵活：国内开发者常需在 Llama、Qwen、DeepSeek 等不同分词器家族间迁移知识。X-Token 无需修改模型结构，可直接用于蒸馏，例如用 Qwen2.5-72B 蒸馏到 1.5B 模型，即使分词器不同。
数学推理场景利好：中文模型在数学任务上常因数字分词差异（如“2024”被拆成“20”“24”还是单个 token）导致蒸馏效果差。X-Token 的投影矩阵专门处理多数字 token，可提升 GSM8k 等基准表现。
国产平替潜力：目前 Hugging Face TRL 库中的 GOLD 实现存在对齐缺陷，X-Token 的 DP 对齐更鲁棒。国内框架如 ModelScope、PaddleNLP 可参考其设计，集成到蒸馏工具中。
注意合规：蒸馏教师模型若为闭源 API（如 GPT-4），需注意数据不出境；使用开源模型（如 Qwen、DeepSeek）则无此问题。

几条值得记住的细节

X-Token 无需额外可训练参数，仅需一次预计算投影矩阵 W，训练开销几乎为零。
投影矩阵 W 的构建包含两步：精确匹配（规范化后字符串相同）和多 token 规则（最多 4 个子 token，权重指数衰减）。
P-KL 完全消除 GOLD 中的“不常见 token 集”，避免 ULD 噪声和抑制梯度；H-KL 则放松匹配标准，将“Hundreds”与“Hund”这类近似对纳入公共集。
在 GSM8k 上，X-Token（P-KL）将准确率从 GOLD 的 2.56 提升至 15.54，提升近 6 倍。
动态规划对齐可缓存，不增加每步训练开销，且能处理 TRL 实现中因 <bos> 标记导致的对齐失败。

一句话总结

X-Token 让跨分词器知识蒸馏变得简单有效，尤其适合数学推理场景，中文开发者可借此灵活利用更强教师模型。

← 返回 AI 快讯列表