Anthropic 发布 Claude Opus 4.8：编程、Agent 与推理能力全面提升，新增 Effort Control 功能

一句话看懂

Anthropic 发布 Claude Opus 4.8，编程、Agent 和推理能力大幅提升，新增 Effort Control 和动态工作流，定价不变。

详细发生了什么

Anthropic 发布了 Claude Opus 4.8，这是对 Opus 4.7 的升级，重点提升编程、Agent 工作、推理和知识任务的表现。用户可通过 claude.ai、Claude Code 和 Claude API 使用，API 名称为 claude-opus-4-8。

新功能包括 Effort Control：在 claude.ai 和 Cowork 中，用户可以设置 Claude 对响应投入的“努力”程度，本质是控制模型消耗的 token 数量。Claude Code 新增动态工作流（research preview），可规划任务、并行运行子 Agent、验证输出并报告结果，适用于大型代码库，能迁移数十万行代码。Messages API 现在支持实时修改 messages 数组，开发者可在 Agent 运行中更新指令（如权限、token 预算），而不破坏 prompt cache 或需要额外用户回合。

定价方面，非 Fast 模式保持每百万输入 token $5、每百万输出 token $25；Fast 模式为 $10/$50，速度提升 2.5 倍。Opus 4.8 默认使用“高”努力，但编码任务下 token 消耗与 Opus 4.7 相当，性能却更好。用户可选“xhigh”模式处理需要更多计算的任务。

基准测试显示，Opus 4.8 在编程、Agent 技能、推理和办公任务上均优于 Opus 4.7。Anthropic 声称模型将缺陷代码直接通过而不加评论的概率降低了 4 倍，欺骗或迎合滥用的倾向也低于 Opus 4.7，与 Claude Mythos Preview 相当。多家测试公司（软件、法律、金融、研究领域）反馈积极，CursorBench 指出 Opus 4.8 用更少的工具步骤达到相同输出。

Anthropic 还透露了路线图：正在开发成本更低但能力相当的模型，并计划在未来几周向客户提供“Mythos 级”模型。Project Glasswing 项目正在使用 Claude Mythos Preview 进行网络安全扫描，但 Anthropic 表示该能力级别需要更强的安全措施才能全面开放。

中文圈视角

对中文开发者来说，Claude Opus 4.8 的更新有几个直接价值：

编程与 Agent 工作流：Claude Code 的动态工作流能处理大型代码库迁移（数十万行），这对国内中大型项目很有吸引力。但 Claude Code 目前仅支持 Enterprise、Team 和 Max 计划，且动态工作流为 research preview，国内用户需注意访问稳定性。
Effort Control 的实用意义：用户可以按需调节 token 消耗，在质量、速度和成本之间做权衡。对于预算敏感的个人开发者或小团队，可以选择低努力模式节省费用；对于关键任务，可用高努力或 xhigh 模式。这比固定定价更灵活。
国产替代对比：国内类似产品如 DeepSeek、Kimi 在编程和 Agent 能力上也在快速迭代，但 Claude Opus 4.8 在 tool calling、context window 利用和动态工作流方面仍领先。对于需要复杂 Agent 编排和大型代码库重构的场景，Claude 仍是首选。不过，国内用户需要解决 API 访问和支付问题，且数据出境合规需注意。
中文场景盲点：Anthropic 的基准测试主要基于英文和编程任务，中文自然语言处理能力未提及。对于中文写作、翻译等场景，Opus 4.8 的提升可能不如编程明显。国内用户应关注实际测试结果。

几条值得记住的细节

定价不变：非 Fast 模式 $5/$25 per million tokens，Fast 模式 $10/$50，速度 2.5x。
Effort Control：用户可设置低/高/xhigh 努力，默认高努力在编码任务中 token 消耗与 Opus 4.7 相同。
动态工作流：Claude Code 中 research preview，支持并行子 Agent 和代码库迁移（数十万行）。
Messages API 实时更新：可在 Agent 运行中修改指令，不破坏 prompt cache。
安全改进：缺陷代码通过率降低 4 倍，欺骗倾向低于 Opus 4.7。

一句话总结

Claude Opus 4.8 在编程和 Agent 能力上显著提升，新增 Effort Control 让成本更可控，但中文场景需实测。