微软发布 Fara1.5 浏览器操控 AI 模型:4B/9B/27B 三尺寸,性能超越 OpenAI Operator 和 Gemini 2.5 Compu
微软研究院推出 Fara1.5 系列浏览器计算机使用代理,基于 Qwen3.5,含 4B、9B、27B 三个版本。Fara1.5-27B 在 Online-Mind2Web 基准上达 72% 任务成功率,超越 OpenAI Operator(58.3%)和 Gemini 2.5 Computer Use(57.3%)。同时发布 FaraGen1.5 合成数据管道,支持在封闭域上训练。本文…
一句话看懂
微软发布 Fara1.5 系列浏览器操控 AI 模型,27B 版本在网页任务测试中击败 OpenAI Operator 和 Gemini 2.5 Computer Use,同时开源合成数据管道 FaraGen1.5。
详细发生了什么
微软研究院 AI Frontiers 实验室发布了 Fara1.5,这是一系列专为浏览器设计的计算机使用代理(CUA)模型。该系列包含三个尺寸:Fara1.5-4B、Fara1.5-9B 和 Fara1.5-27B,均基于 Qwen3.5 基础检查点构建。这些模型通过 MagenticLite(微软的沙盒浏览器接口)运行,采用“观察-思考-行动”循环:每一步模型接收对话历史和最近三张浏览器截图,输出思考过程和下一步动作。动作空间包括标准鼠标键盘输入、网页搜索等网页特定操作,以及记忆事实、向用户提问等元操作,使模型能处理更长任务并与用户协作。
在 Online-Mind2Web 基准测试中,Fara1.5-27B 达到 72% 任务成功率,显著超越 OpenAI Operator(58.3%)、Gemini 2.5 Computer Use(57.3%)和 Yutori Navigator n1(64.7%)。Fara1.5-9B 也以 63.4% 的成绩接近 Navigator n1,并几乎是前代 Fara-7B(34.1%)的两倍。训练数据约 200 万样本,其中 60% 为真实网页轨迹,12.8% 为合成环境,其余包括表单填写、用户交互、接地(grounding)和 VQA 等。
同时发布的 FaraGen1.5 是一个合成数据管道,包含环境、求解器和验证器三部分。环境分为开放互联网任务和封闭域任务。对于需要登录或执行不可逆操作的封闭域(如发送邮件),团队用 GitHub Copilot CLI 构建了六个功能完整的应用克隆(FaraEnvs),覆盖邮件、日历、流媒体、机器学习、住宿和日程管理。求解器使用 OpenAI GPT-5.4 和自定义工具,在 Online-Mind2Web 上达到 83% 成功率。验证器从正确性、效率和用户交互三个维度筛选轨迹。
安全方面,Fara1.5 在三种情况下会暂停并向用户提问:任务需要未提供的个人信息、任务描述模糊、即将执行不可逆操作。所有动作在 MagenticLite 中被记录和审计,沙盒浏览器作为安全边界。
中文圈视角
Fara1.5 对中文用户有几点值得关注:
-
可用性与平替:目前 Fara1.5 模型权重和 FaraGen1.5 管道是否开源尚不明确,但基于 Qwen3.5 意味着中文理解能力有基础。如果微软开放模型,国内开发者可直接在本地或云端部署,无需依赖 OpenAI 或 Google 的 API。国内类似产品如智谱的 AutoGLM 或阿里通义千问的浏览器插件,目前尚未达到 Fara1.5 的公开基准成绩,但差距可能不大。
-
中文场景适用性:Fara1.5 的训练数据以英文网站为主,在中文网站(如淘宝、京东、百度)上的表现需要验证。不过,Qwen3.5 本身对中文支持良好,若微软加入中文微调数据,有望直接用于自动化表单填写、比价、信息收集等任务。
-
监管与合规:Fara1.5 的“暂停并询问”机制符合国内对 AI 安全的要求,但 MagenticLite 的沙盒环境是否能满足数据出境规定?如果模型在本地运行,数据不出境,则合规风险较低。国内企业可借鉴其安全设计思路。
-
合成数据管道 FaraGen1.5:这是隐藏亮点。国内团队常因缺乏高质量训练数据而困扰,FaraGen1.5 的“应用克隆+LLM 求解器+验证器”模式可直接复用,用于生成中文网页任务的训练数据,降低数据获取成本。
几条值得记住的细节
- Fara1.5-27B 在 Online-Mind2Web 上达 72%,领先 OpenAI Operator 近 14 个百分点。
- 模型基于 Qwen3.5 检查点,使用 200 万样本训练,损失仅计算每个轨迹最后三轮。
- FaraGen1.5 包含六个合成应用克隆(FaraEnvs),用于生成封闭域训练数据。
- 安全机制:模型在需要个人信息、任务模糊或执行不可逆操作时暂停并询问用户。
- 在 WebVoyager 上,Fara1.5-27B 达 88.6%,9B 版本达 86.6%。
一句话总结
Fara1.5 让浏览器自动化任务性能大幅提升,中文用户可期待更智能的网页助手,但需关注中文适配和开源进展。