微软发布 Webwright:终端原生网页代理框架,GPT-5.4 在 Odysseys 基准上从 33.5% 提升至 60.1%
微软研究院推出开源框架 Webwright,让 AI 代理通过编写 Playwright 脚本控制浏览器,而非逐次点击。在 Odysseys 基准上,GPT-5.4 得分从 33.5% 跃升至 60.1%,超越此前最佳。本文详解其工作原理、性能数据及对中文开发者的实用价值。
一句话看懂
微软研究院开源 Webwright,让 AI 代理像程序员一样写代码控制浏览器,在复杂网页任务基准上性能翻倍。
详细发生了什么
传统网页代理每次只执行一个动作:截图或读取 DOM,然后预测点击、按键或滚动。微软研究院 AI Frontiers 实验室认为,随着模型代码能力增强,这种逐动作循环反而成为瓶颈。
他们开源的 Webwright 框架彻底改变了思路:代理不再直接操作浏览器,而是通过终端编写 Playwright 代码来控制浏览器。Playwright 是微软自家的开源浏览器自动化库,支持 Chromium、Firefox 和 WebKit。代理可以运行 bash 命令、检查日志、迭代优化脚本,所有中间产物(代码、日志、截图)都保存在本地工作区,便于审查。
整个框架仅约 1000 行代码,分为三个模块:Runner(约 150 行)、Model Endpoint(约 550 行)和终端 Environment(约 300 行)。没有多代理编排或复杂规划层级,只有一个单代理循环。
在基准测试中,Webwright 搭配 GPT-5.4 在 Online-Mind2Web 上达到 86.67% 准确率,是所有开源方案中最高;在长周期多网站任务基准 Odysseys 上达到 60.1%,相比此前最佳提升 35.1%,相比基础 GPT-5.4 的 33.5% 提升 79.4%。
中文圈视角
Webwright 对中文开发者有几点直接价值:
- 可本地部署:框架完全开源,支持 OpenAI、Anthropic 和 OpenRouter 后端。国内用户可以使用兼容 API(如 DeepSeek、智谱 GLM 的 API)替代,无需依赖海外服务。
- 平替方案:Qwen3.5-9B 在配备预构建工具脚本后,在 Online-Mind2Web 上达到 66.2% 准确率。这意味着国产小模型也能胜任复杂网页任务,成本更低。
- 应用场景:适合自动化数据采集、表单填写、跨网站信息聚合等任务。相比传统 RPA 工具,Webwright 生成的脚本可复用、可调试,且天然支持 LLM 的推理能力。
- 监管合规:由于代理在本地终端运行,数据不出境,符合国内数据安全要求。但需注意,若使用海外模型 API,仍需评估数据出境风险。
一个中文圈尚未讨论的盲点:Webwright 的“代码即脚本”模式可能催生新的“AI 代理脚本市场”,类似 npm 但用于网页自动化任务,国内开发者可提前布局。
几条值得记住的细节
- Webwright 整个框架仅约 1000 行代码,三个模块各司其职,无复杂架构。
- 在 Odysseys 基准上,GPT-5.4 搭配 Webwright 得分 60.1%,基础 GPT-5.4 仅 33.5%,提升 79.4%。
- Claude Opus 4.7 步骤效率更高(平均 21.9 步 vs GPT-5.4 的 26.3 步),但单任务成本更高($6.09 vs $2.37)。
- 前 50 步即可达到 82% 准确率,后 50 步仅提升 3-4 个百分点。
- 小模型 Qwen3.5-9B 配合预构建工具脚本,在 Online-Mind2Web 上达到 66.2% 准确率。
一句话总结
Webwright 让 AI 代理从“点鼠标”升级为“写代码”,性能大幅提升,且开源可自部署,对中文开发者是实用工具。