开源模型大爆发:Gemma 4、DeepSeek V4、Kimi K2.6、GLM-5.1 等密集发布,CAISI 评估显示与闭源差距扩大
本月开源模型迎来旗舰级更新潮,Google Gemma 4、DeepSeek V4、Kimi K2.6、小米 MiMo V2.5 Pro、GLM-5.1 等相继发布。CAISI 最新评估显示开源模型与闭源前沿差距拉大,但评测方法存在争议。本文梳理核心发布、技术细节及对中文用户的影响。
一句话看懂
本月开源模型迎来旗舰级密集发布:Google Gemma 4、DeepSeek V4、Kimi K2.6、小米 MiMo V2.5 Pro、GLM-5.1 等集体亮相,但 CAISI 评估称开源与闭源差距扩大,评测方法引发争议。
详细发生了什么
过去一个月,开源前沿实验室密集发布新模型,包括 DeepSeek、Google、月之暗面、小米、智谱等。美国人工智能标准与创新中心(CAISI)发布了针对开源模型的 V4 评估报告,基于项目反应理论(IRT)计算 Elo 分数,使用 9 个不同基准。结果显示开源模型落后于美国闭源前沿,且差距随时间扩大。
但评测方法存在争议:DeepSeek V4 在 CTF-Archive-Diamond、PortBench(CAISI 私有基准)和 ARC-AGI-2 上得分较低,但这些基准的评分方式与公开排行榜不同,且仅用子集测试后通过 IRT 外推。Epoch AI 的 ECI 指标显示,开源与闭源差距大致保持在 3-7 个月(自 R1 以来)。
关键发布包括:
- Google Gemma 4:提供 4B、9B、31B 密集模型及 26B-A4B MoE,采用 Apache 2.0 许可证。
- DeepSeek V4:分 Pro(1.6T-A49B MoE)和 Flash(284B-13B)两个版本,Flash 性能突出。
- Kimi K2.6:月之暗面更新,长时任务性能提升,支持数小时连续运行。
- MiMo V2.5 Pro:小米发布,Apache 2.0 许可,性能与 Kimi K2.6、GLM-5.1 相当。
- GLM-5.1:智谱更新,聚焦长时任务。
- 其他:Qwen3.6-35B-A3B、LiquidAI LFM2.5-350M(28T tokens/350M 参数)、Arcee Trinity-Large-Thinking 等。
中文圈视角
对国内用户意味着什么?
-
可用性与平替:这些开源模型大多可通过 Hugging Face 或 ModelScope 下载,国内用户无需梯子即可使用。Kimi K2.6、GLM-5.1、Qwen3.6 等国产模型在中文场景表现优异,可直接替代闭源模型。DeepSeek V4 Flash 性能强劲,适合本地部署。
-
国产对比:小米 MiMo V2.5 Pro 采用 Apache 2.0 许可,与 Kimi K2.6、GLM-5.1 性能接近,但生态支持仍需完善。月之暗面 Kimi K2.6 在长时任务上领先,智谱 GLM-5.1 则强化了中文理解。DeepSeek V4 的 Flash 版本性价比突出,但 Pro 版本未达预期。
-
监管与合规:Google Gemma 4 改用 Apache 2.0 许可,降低了法律风险,国内企业可放心商用。但 DeepSeek V4 等模型的数据出境和内容安全仍需关注。
-
盲点:CAISI 评测方法争议被中文圈较少讨论。实际能力可能比基准分数更接近闭源模型,尤其是使用模型原生工具链(如 Claude Code)时。
几条值得记住的细节
- Google Gemma 4 采用 Apache 2.0 许可证,移除自定义许可的法律不确定性。
- DeepSeek V4 Flash(284B-13B)性能突出,Pro(1.6T-A49B)相对尺寸未达预期。
- Kimi K2.6 支持数小时连续任务,适合自动化研究场景。
- 小米 MiMo V2.5 Pro 发布一周年,性能与 Kimi K2.6、GLM-5.1 相当。
- CAISI 评估中 DeepSeek V4 在 CTF-Archive-Diamond 等基准得分低,但评测方法被指不完整。
一句话总结
开源模型能力快速追赶,但评测方法争议提醒我们:基准分数不等于真实表现,实际使用中可能更接近闭源模型。