阿里 Qwen3.7-Max 发布：百万 token 上下文窗口，专为长程 Agent 任务设计

一句话看懂

阿里云发布 Qwen3.7-Max，一款拥有 1M token 上下文窗口的推理 Agent 模型，专为长程编码、调试和多步骤工作流自动化设计。

详细发生了什么

2026 年 5 月 20 日，阿里 Qwen 团队在阿里云峰会上正式宣布 Qwen3.7-Max，称其为迄今为止最先进、最全面的 Agent 模型。该模型为闭源专有模型，核心特性包括：

1M token 上下文窗口：相比前代 Qwen3.6 Max Preview 的 256K 大幅提升，可一次容纳完整的中型代码仓库或大量文档。
扩展思考模式：模型先生成内部推理链（chain of thought），规划、检查并修正后再给出最终答案。在 Qwen Chat 界面可切换“Thinking”模式查看推理过程。
基准表现：在 Artificial Analysis 智能指数 v4.0 上得分为 56.6，排名第五，超越 Google Gemini 3.5 Flash（55.3），但落后于 GPT-5.5（60.2）、Claude Opus 4.7（57.3）等。提升主要集中在科学推理、Agent 能力和编码领域。
内部测试：在新芯片平台上，模型自主执行超过 1000 次 tool calls 和迭代代码修改，阿里声称推理速度比上一代提升约 10 倍。

定价尚未公布，前代 Qwen3.6 Max Preview 价格为 $1.30/$7.80 每百万输入/输出 token。API 兼容 OpenAI 和 Anthropic 规范，国际访问通过 dashscope-intl.aliyuncs.com。

中文圈视角

国内用户用得上吗？ 可以。Qwen3.7-Max 通过阿里云 DashScope 国际站提供 API，国内用户可直接访问，无需额外工具。Qwen Chat 网页端也免费可用，适合快速体验。

与国产模型的对比：相比 DeepSeek-R1（671B 参数，开源，上下文 128K）和 Kimi k1.5（上下文 128K），Qwen3.7-Max 的 1M token 上下文窗口是显著优势，适合处理超长文档或大型代码库。但 DeepSeek-R1 在数学和推理基准上表现强劲且开源，Qwen3.7-Max 则更侧重 Agent 任务和多步骤自动化。智谱 GLM-4 系列目前上下文为 128K，尚未有百万级产品。

对中文用户的具体场景：

编程：1M 上下文可一次加载整个项目代码，进行全局重构或调试。
办公自动化：多步骤工作流（如数据提取、报告生成）可减少人工干预。
学术研究：处理长篇论文、技术文档的摘要和问答。

需要注意的盲点：AA-Omniscience 基准上模型准确率下降 7.6 个百分点，但幻觉率降低 21.3 个百分点——模型更倾向于说“不知道”而非编造。对于依赖广泛事实回忆的场景（如知识问答），这可能是一个限制。

几条值得记住的细节

上下文窗口从 Qwen3.6 的 256K 提升至 1M token，可容纳完整中型代码仓库。
扩展思考模式下，模型生成约 9700 万 token（基准平均 2400 万），适合复杂任务，简单任务反而增加延迟。
在 Text Arena 中，Qwen3.7-Max-Preview 排名第 13，其中数学第 7、编码第 10。
内部测试中，模型自主执行超 1000 次 tool calls，推理速度提升约 10 倍。
定价尚未公布，前代 Qwen3.6 Max Preview 为 $1.30/$7.80 每百万输入/输出 token。

一句话总结

如果你需要处理超长上下文或多步骤 Agent 任务，Qwen3.7-Max 是目前国产模型中上下文最大、Agent 能力最强的选择。