AI 快讯 编译自 marktechpost #模型发布#Agent#百万上下文

阿里 Qwen3.7-Max 发布:百万 token 上下文窗口,专为长程 Agent 任务设计

阿里 Qwen 团队推出 Qwen3.7-Max,具备 1M token 上下文窗口和扩展思考模式,在 Artificial Analysis 智能指数中排名第五。本文详解其能力、基准表现、中文用户使用方式及与国产模型的对比。

编译发布 2026/05/24 原文发布 2026/05/21

一句话看懂

阿里云发布 Qwen3.7-Max,一款拥有 1M token 上下文窗口的推理 Agent 模型,专为长程编码、调试和多步骤工作流自动化设计。

详细发生了什么

2026 年 5 月 20 日,阿里 Qwen 团队在阿里云峰会上正式宣布 Qwen3.7-Max,称其为迄今为止最先进、最全面的 Agent 模型。该模型为闭源专有模型,核心特性包括:

  • 1M token 上下文窗口:相比前代 Qwen3.6 Max Preview 的 256K 大幅提升,可一次容纳完整的中型代码仓库或大量文档。
  • 扩展思考模式:模型先生成内部推理链(chain of thought),规划、检查并修正后再给出最终答案。在 Qwen Chat 界面可切换“Thinking”模式查看推理过程。
  • 基准表现:在 Artificial Analysis 智能指数 v4.0 上得分为 56.6,排名第五,超越 Google Gemini 3.5 Flash(55.3),但落后于 GPT-5.5(60.2)、Claude Opus 4.7(57.3)等。提升主要集中在科学推理、Agent 能力和编码领域。
  • 内部测试:在新芯片平台上,模型自主执行超过 1000 次 tool calls 和迭代代码修改,阿里声称推理速度比上一代提升约 10 倍。

定价尚未公布,前代 Qwen3.6 Max Preview 价格为 $1.30/$7.80 每百万输入/输出 token。API 兼容 OpenAI 和 Anthropic 规范,国际访问通过 dashscope-intl.aliyuncs.com。

中文圈视角

国内用户用得上吗? 可以。Qwen3.7-Max 通过阿里云 DashScope 国际站提供 API,国内用户可直接访问,无需额外工具。Qwen Chat 网页端也免费可用,适合快速体验。

与国产模型的对比:相比 DeepSeek-R1(671B 参数,开源,上下文 128K)和 Kimi k1.5(上下文 128K),Qwen3.7-Max 的 1M token 上下文窗口是显著优势,适合处理超长文档或大型代码库。但 DeepSeek-R1 在数学和推理基准上表现强劲且开源,Qwen3.7-Max 则更侧重 Agent 任务和多步骤自动化。智谱 GLM-4 系列目前上下文为 128K,尚未有百万级产品。

对中文用户的具体场景

  • 编程:1M 上下文可一次加载整个项目代码,进行全局重构或调试。
  • 办公自动化:多步骤工作流(如数据提取、报告生成)可减少人工干预。
  • 学术研究:处理长篇论文、技术文档的摘要和问答。

需要注意的盲点:AA-Omniscience 基准上模型准确率下降 7.6 个百分点,但幻觉率降低 21.3 个百分点——模型更倾向于说“不知道”而非编造。对于依赖广泛事实回忆的场景(如知识问答),这可能是一个限制。

几条值得记住的细节

  • 上下文窗口从 Qwen3.6 的 256K 提升至 1M token,可容纳完整中型代码仓库。
  • 扩展思考模式下,模型生成约 9700 万 token(基准平均 2400 万),适合复杂任务,简单任务反而增加延迟。
  • 在 Text Arena 中,Qwen3.7-Max-Preview 排名第 13,其中数学第 7、编码第 10。
  • 内部测试中,模型自主执行超 1000 次 tool calls,推理速度提升约 10 倍。
  • 定价尚未公布,前代 Qwen3.6 Max Preview 为 $1.30/$7.80 每百万输入/输出 token。

一句话总结

如果你需要处理超长上下文或多步骤 Agent 任务,Qwen3.7-Max 是目前国产模型中上下文最大、Agent 能力最强的选择。