微软发布 Webwright：终端原生网页代理框架，GPT-5.4 在 Odysseys 基准上从 33.5% 提升至 60.1%

一句话看懂

微软研究院开源 Webwright，让 AI 代理像程序员一样写代码控制浏览器，在复杂网页任务基准上性能翻倍。

详细发生了什么

传统网页代理每次只执行一个动作：截图或读取 DOM，然后预测点击、按键或滚动。微软研究院 AI Frontiers 实验室认为，随着模型代码能力增强，这种逐动作循环反而成为瓶颈。

他们开源的 Webwright 框架彻底改变了思路：代理不再直接操作浏览器，而是通过终端编写 Playwright 代码来控制浏览器。Playwright 是微软自家的开源浏览器自动化库，支持 Chromium、Firefox 和 WebKit。代理可以运行 bash 命令、检查日志、迭代优化脚本，所有中间产物（代码、日志、截图）都保存在本地工作区，便于审查。

整个框架仅约 1000 行代码，分为三个模块：Runner（约 150 行）、Model Endpoint（约 550 行）和终端 Environment（约 300 行）。没有多代理编排或复杂规划层级，只有一个单代理循环。

在基准测试中，Webwright 搭配 GPT-5.4 在 Online-Mind2Web 上达到 86.67% 准确率，是所有开源方案中最高；在长周期多网站任务基准 Odysseys 上达到 60.1%，相比此前最佳提升 35.1%，相比基础 GPT-5.4 的 33.5% 提升 79.4%。

中文圈视角

Webwright 对中文开发者有几点直接价值：

可本地部署：框架完全开源，支持 OpenAI、Anthropic 和 OpenRouter 后端。国内用户可以使用兼容 API（如 DeepSeek、智谱 GLM 的 API）替代，无需依赖海外服务。
平替方案：Qwen3.5-9B 在配备预构建工具脚本后，在 Online-Mind2Web 上达到 66.2% 准确率。这意味着国产小模型也能胜任复杂网页任务，成本更低。
应用场景：适合自动化数据采集、表单填写、跨网站信息聚合等任务。相比传统 RPA 工具，Webwright 生成的脚本可复用、可调试，且天然支持 LLM 的推理能力。
监管合规：由于代理在本地终端运行，数据不出境，符合国内数据安全要求。但需注意，若使用海外模型 API，仍需评估数据出境风险。

一个中文圈尚未讨论的盲点：Webwright 的“代码即脚本”模式可能催生新的“AI 代理脚本市场”，类似 npm 但用于网页自动化任务，国内开发者可提前布局。

几条值得记住的细节

Webwright 整个框架仅约 1000 行代码，三个模块各司其职，无复杂架构。
在 Odysseys 基准上，GPT-5.4 搭配 Webwright 得分 60.1%，基础 GPT-5.4 仅 33.5%，提升 79.4%。
Claude Opus 4.7 步骤效率更高（平均 21.9 步 vs GPT-5.4 的 26.3 步），但单任务成本更高（$6.09 vs $2.37）。
前 50 步即可达到 82% 准确率，后 50 步仅提升 3-4 个百分点。
小模型 Qwen3.5-9B 配合预构建工具脚本，在 Online-Mind2Web 上达到 66.2% 准确率。

一句话总结

Webwright 让 AI 代理从“点鼠标”升级为“写代码”，性能大幅提升，且开源可自部署，对中文开发者是实用工具。