开源模型大爆发：Gemma 4、DeepSeek V4、Kimi K2.6、GLM-5.1 等密集发布，CAISI 评估显示与闭源差距扩大

一句话看懂

本月开源模型迎来旗舰级密集发布：Google Gemma 4、DeepSeek V4、Kimi K2.6、小米 MiMo V2.5 Pro、GLM-5.1 等集体亮相，但 CAISI 评估称开源与闭源差距扩大，评测方法引发争议。

详细发生了什么

过去一个月，开源前沿实验室密集发布新模型，包括 DeepSeek、Google、月之暗面、小米、智谱等。美国人工智能标准与创新中心（CAISI）发布了针对开源模型的 V4 评估报告，基于项目反应理论（IRT）计算 Elo 分数，使用 9 个不同基准。结果显示开源模型落后于美国闭源前沿，且差距随时间扩大。

但评测方法存在争议：DeepSeek V4 在 CTF-Archive-Diamond、PortBench（CAISI 私有基准）和 ARC-AGI-2 上得分较低，但这些基准的评分方式与公开排行榜不同，且仅用子集测试后通过 IRT 外推。Epoch AI 的 ECI 指标显示，开源与闭源差距大致保持在 3-7 个月（自 R1 以来）。

关键发布包括：

Google Gemma 4：提供 4B、9B、31B 密集模型及 26B-A4B MoE，采用 Apache 2.0 许可证。
DeepSeek V4：分 Pro（1.6T-A49B MoE）和 Flash（284B-13B）两个版本，Flash 性能突出。
Kimi K2.6：月之暗面更新，长时任务性能提升，支持数小时连续运行。
MiMo V2.5 Pro：小米发布，Apache 2.0 许可，性能与 Kimi K2.6、GLM-5.1 相当。
GLM-5.1：智谱更新，聚焦长时任务。
其他：Qwen3.6-35B-A3B、LiquidAI LFM2.5-350M（28T tokens/350M 参数）、Arcee Trinity-Large-Thinking 等。

中文圈视角

对国内用户意味着什么？

可用性与平替：这些开源模型大多可通过 Hugging Face 或 ModelScope 下载，国内用户无需梯子即可使用。Kimi K2.6、GLM-5.1、Qwen3.6 等国产模型在中文场景表现优异，可直接替代闭源模型。DeepSeek V4 Flash 性能强劲，适合本地部署。
国产对比：小米 MiMo V2.5 Pro 采用 Apache 2.0 许可，与 Kimi K2.6、GLM-5.1 性能接近，但生态支持仍需完善。月之暗面 Kimi K2.6 在长时任务上领先，智谱 GLM-5.1 则强化了中文理解。DeepSeek V4 的 Flash 版本性价比突出，但 Pro 版本未达预期。
监管与合规：Google Gemma 4 改用 Apache 2.0 许可，降低了法律风险，国内企业可放心商用。但 DeepSeek V4 等模型的数据出境和内容安全仍需关注。
盲点：CAISI 评测方法争议被中文圈较少讨论。实际能力可能比基准分数更接近闭源模型，尤其是使用模型原生工具链（如 Claude Code）时。

几条值得记住的细节

Google Gemma 4 采用 Apache 2.0 许可证，移除自定义许可的法律不确定性。
DeepSeek V4 Flash（284B-13B）性能突出，Pro（1.6T-A49B）相对尺寸未达预期。
Kimi K2.6 支持数小时连续任务，适合自动化研究场景。
小米 MiMo V2.5 Pro 发布一周年，性能与 Kimi K2.6、GLM-5.1 相当。
CAISI 评估中 DeepSeek V4 在 CTF-Archive-Diamond 等基准得分低，但评测方法被指不完整。

一句话总结

开源模型能力快速追赶，但评测方法争议提醒我们：基准分数不等于真实表现，实际使用中可能更接近闭源模型。