AI 快讯 编译自 interconnects #模型发布#行业分析#开源模型

开源模型大爆发:Gemma 4、DeepSeek V4、Kimi K2.6、GLM-5.1 等密集发布,CAISI 评估显示与闭源差距扩大

本月开源模型迎来旗舰级更新潮,Google Gemma 4、DeepSeek V4、Kimi K2.6、小米 MiMo V2.5 Pro、GLM-5.1 等相继发布。CAISI 最新评估显示开源模型与闭源前沿差距拉大,但评测方法存在争议。本文梳理核心发布、技术细节及对中文用户的影响。

编译发布 2026/05/24 原文发布 2026/05/16

一句话看懂

本月开源模型迎来旗舰级密集发布:Google Gemma 4、DeepSeek V4、Kimi K2.6、小米 MiMo V2.5 Pro、GLM-5.1 等集体亮相,但 CAISI 评估称开源与闭源差距扩大,评测方法引发争议。

详细发生了什么

过去一个月,开源前沿实验室密集发布新模型,包括 DeepSeek、Google、月之暗面、小米、智谱等。美国人工智能标准与创新中心(CAISI)发布了针对开源模型的 V4 评估报告,基于项目反应理论(IRT)计算 Elo 分数,使用 9 个不同基准。结果显示开源模型落后于美国闭源前沿,且差距随时间扩大。

但评测方法存在争议:DeepSeek V4 在 CTF-Archive-Diamond、PortBench(CAISI 私有基准)和 ARC-AGI-2 上得分较低,但这些基准的评分方式与公开排行榜不同,且仅用子集测试后通过 IRT 外推。Epoch AI 的 ECI 指标显示,开源与闭源差距大致保持在 3-7 个月(自 R1 以来)。

关键发布包括:

  • Google Gemma 4:提供 4B、9B、31B 密集模型及 26B-A4B MoE,采用 Apache 2.0 许可证。
  • DeepSeek V4:分 Pro(1.6T-A49B MoE)和 Flash(284B-13B)两个版本,Flash 性能突出。
  • Kimi K2.6:月之暗面更新,长时任务性能提升,支持数小时连续运行。
  • MiMo V2.5 Pro:小米发布,Apache 2.0 许可,性能与 Kimi K2.6、GLM-5.1 相当。
  • GLM-5.1:智谱更新,聚焦长时任务。
  • 其他:Qwen3.6-35B-A3B、LiquidAI LFM2.5-350M(28T tokens/350M 参数)、Arcee Trinity-Large-Thinking 等。

中文圈视角

对国内用户意味着什么?

  1. 可用性与平替:这些开源模型大多可通过 Hugging Face 或 ModelScope 下载,国内用户无需梯子即可使用。Kimi K2.6、GLM-5.1、Qwen3.6 等国产模型在中文场景表现优异,可直接替代闭源模型。DeepSeek V4 Flash 性能强劲,适合本地部署。

  2. 国产对比:小米 MiMo V2.5 Pro 采用 Apache 2.0 许可,与 Kimi K2.6、GLM-5.1 性能接近,但生态支持仍需完善。月之暗面 Kimi K2.6 在长时任务上领先,智谱 GLM-5.1 则强化了中文理解。DeepSeek V4 的 Flash 版本性价比突出,但 Pro 版本未达预期。

  3. 监管与合规:Google Gemma 4 改用 Apache 2.0 许可,降低了法律风险,国内企业可放心商用。但 DeepSeek V4 等模型的数据出境和内容安全仍需关注。

  4. 盲点:CAISI 评测方法争议被中文圈较少讨论。实际能力可能比基准分数更接近闭源模型,尤其是使用模型原生工具链(如 Claude Code)时。

几条值得记住的细节

  • Google Gemma 4 采用 Apache 2.0 许可证,移除自定义许可的法律不确定性。
  • DeepSeek V4 Flash(284B-13B)性能突出,Pro(1.6T-A49B)相对尺寸未达预期。
  • Kimi K2.6 支持数小时连续任务,适合自动化研究场景。
  • 小米 MiMo V2.5 Pro 发布一周年,性能与 Kimi K2.6、GLM-5.1 相当。
  • CAISI 评估中 DeepSeek V4 在 CTF-Archive-Diamond 等基准得分低,但评测方法被指不完整。

一句话总结

开源模型能力快速追赶,但评测方法争议提醒我们:基准分数不等于真实表现,实际使用中可能更接近闭源模型。

原文信息

原文标题
Latest open artifacts (#21): Open model bonanza! Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5, GLM-5.1 & others. On CAISI's V4 assessment.
原作者
Florian Brand
翻译模型
deepseek-chat

本文由 AI 跟我学 编译翻译自上述英文原文,并加入中文圈视角解读。如有版权问题请联系 [email protected], 我们将第一时间处理。