微软发布 Fara1.5 浏览器操控 AI 模型：4B/9B/27B 三尺寸，性能超越 OpenAI Operator 和 Gemini 2.5 Compu

一句话看懂

微软发布 Fara1.5 系列浏览器操控 AI 模型，27B 版本在网页任务测试中击败 OpenAI Operator 和 Gemini 2.5 Computer Use，同时开源合成数据管道 FaraGen1.5。

详细发生了什么

微软研究院 AI Frontiers 实验室发布了 Fara1.5，这是一系列专为浏览器设计的计算机使用代理（CUA）模型。该系列包含三个尺寸：Fara1.5-4B、Fara1.5-9B 和 Fara1.5-27B，均基于 Qwen3.5 基础检查点构建。这些模型通过 MagenticLite（微软的沙盒浏览器接口）运行，采用“观察-思考-行动”循环：每一步模型接收对话历史和最近三张浏览器截图，输出思考过程和下一步动作。动作空间包括标准鼠标键盘输入、网页搜索等网页特定操作，以及记忆事实、向用户提问等元操作，使模型能处理更长任务并与用户协作。

在 Online-Mind2Web 基准测试中，Fara1.5-27B 达到 72% 任务成功率，显著超越 OpenAI Operator（58.3%）、Gemini 2.5 Computer Use（57.3%）和 Yutori Navigator n1（64.7%）。Fara1.5-9B 也以 63.4% 的成绩接近 Navigator n1，并几乎是前代 Fara-7B（34.1%）的两倍。训练数据约 200 万样本，其中 60% 为真实网页轨迹，12.8% 为合成环境，其余包括表单填写、用户交互、接地（grounding）和 VQA 等。

同时发布的 FaraGen1.5 是一个合成数据管道，包含环境、求解器和验证器三部分。环境分为开放互联网任务和封闭域任务。对于需要登录或执行不可逆操作的封闭域（如发送邮件），团队用 GitHub Copilot CLI 构建了六个功能完整的应用克隆（FaraEnvs），覆盖邮件、日历、流媒体、机器学习、住宿和日程管理。求解器使用 OpenAI GPT-5.4 和自定义工具，在 Online-Mind2Web 上达到 83% 成功率。验证器从正确性、效率和用户交互三个维度筛选轨迹。

安全方面，Fara1.5 在三种情况下会暂停并向用户提问：任务需要未提供的个人信息、任务描述模糊、即将执行不可逆操作。所有动作在 MagenticLite 中被记录和审计，沙盒浏览器作为安全边界。

中文圈视角

Fara1.5 对中文用户有几点值得关注：

可用性与平替：目前 Fara1.5 模型权重和 FaraGen1.5 管道是否开源尚不明确，但基于 Qwen3.5 意味着中文理解能力有基础。如果微软开放模型，国内开发者可直接在本地或云端部署，无需依赖 OpenAI 或 Google 的 API。国内类似产品如智谱的 AutoGLM 或阿里通义千问的浏览器插件，目前尚未达到 Fara1.5 的公开基准成绩，但差距可能不大。
中文场景适用性：Fara1.5 的训练数据以英文网站为主，在中文网站（如淘宝、京东、百度）上的表现需要验证。不过，Qwen3.5 本身对中文支持良好，若微软加入中文微调数据，有望直接用于自动化表单填写、比价、信息收集等任务。
监管与合规：Fara1.5 的“暂停并询问”机制符合国内对 AI 安全的要求，但 MagenticLite 的沙盒环境是否能满足数据出境规定？如果模型在本地运行，数据不出境，则合规风险较低。国内企业可借鉴其安全设计思路。
合成数据管道 FaraGen1.5：这是隐藏亮点。国内团队常因缺乏高质量训练数据而困扰，FaraGen1.5 的“应用克隆+LLM 求解器+验证器”模式可直接复用，用于生成中文网页任务的训练数据，降低数据获取成本。

几条值得记住的细节

Fara1.5-27B 在 Online-Mind2Web 上达 72%，领先 OpenAI Operator 近 14 个百分点。
模型基于 Qwen3.5 检查点，使用 200 万样本训练，损失仅计算每个轨迹最后三轮。
FaraGen1.5 包含六个合成应用克隆（FaraEnvs），用于生成封闭域训练数据。
安全机制：模型在需要个人信息、任务模糊或执行不可逆操作时暂停并询问用户。
在 WebVoyager 上，Fara1.5-27B 达 88.6%，9B 版本达 86.6%。

一句话总结

Fara1.5 让浏览器自动化任务性能大幅提升，中文用户可期待更智能的网页助手，但需关注中文适配和开源进展。