PyCon US 2026 闪电演讲：五分钟回顾 LLM 过去六个月，模型霸主五次易手

一句话看懂

Simon Willison 在 PyCon US 2026 闪电演讲中总结了 LLM 过去六个月的关键变化：2025 年 11 月转折点、最佳模型五次易手、编码能力飞跃。

详细发生了什么

Simon Willison 在 PyCon US 2026 上做了一场五分钟闪电演讲，用带注释的幻灯片回顾了 LLM 领域过去六个月（2025 年 11 月至 2026 年 5 月）的快速发展。他特别强调 2025 年 11 月是一个转折点——那个月模型在编码能力上出现了质的飞跃。

最引人注目的变化是“最佳模型”的头衔在 Anthropic、OpenAI 和 Google 之间易手了五次。这意味着竞争异常激烈，没有一家公司能长期占据绝对优势。此外，模型在代码生成、推理和长上下文处理方面都有了显著提升，尤其是 coding 场景成为各家争夺的焦点。

Willison 还提到，这些变化对开发者工具链产生了深远影响。AI 辅助编程工具（如 GitHub Copilot、Cursor）的能力大幅增强，甚至能处理更复杂的项目级任务。

中文圈视角

对中文用户来说，这场“模型霸主争夺战”直接影响着我们能用到什么水平的 AI 服务。目前国内可用的主流模型（如 DeepSeek、Kimi、智谱 GLM）虽然也在快速迭代，但在编码能力上与国际顶尖模型仍有差距。例如，DeepSeek-Coder 在部分基准测试上接近 GPT-4，但复杂项目理解和多文件重构能力还稍逊一筹。

好消息是，国内用户可以通过 API 直接调用 Anthropic 的 Claude 和 OpenAI 的 GPT 系列（需要梯子），但成本较高。对于预算有限的开发者，国产模型如 DeepSeek 和通义千问提供了性价比不错的替代方案。此外，国内监管要求数据不出境，因此使用海外模型时需注意合规问题，尤其是涉及敏感数据的企业用户。

一个值得关注的盲点是：国内模型在中文自然语言理解和生成上往往表现更好，但在英文编程任务上可能不如海外模型。如果你的工作流以英文代码为主，建议优先考虑 Claude 或 GPT；如果以中文文档和对话为主，国产模型可能更合适。

几条值得记住的细节

2025 年 11 月是 LLM 编码能力的转折点，模型在代码生成和推理上出现质的飞跃。
“最佳模型”头衔在 Anthropic、OpenAI 和 Google 之间易手五次，竞争白热化。
模型在长上下文处理上进步明显，部分模型支持 1M token 以上的 context window。
AI 辅助编程工具（如 GitHub Copilot、Cursor）能力大幅增强，能处理更复杂的项目级任务。
演讲者 Simon Willison 使用自研的 annotated presentation tool 制作了带注释的幻灯片。

一句话总结

过去六个月 LLM 竞争空前激烈，编码能力成为核心战场，中文用户需根据场景选择最合适的模型。