1081 字
3 分钟
Claude Opus 4.8 发布
2026-05-29
2026-05-28

Claude Opus 4.8 发布:一次更偏工程协作的升级#

Anthropic 在 2026 年 5 月 28 日发布了 Claude Opus 4.8。看名字就知道,这不是一次推倒重来的大版本,而是对 Opus 4.7 的继续打磨:更强的 benchmark 表现,更适合长任务协作,也更强调模型在工作过程中的判断力。

这次发布里,我觉得最值得看的不是“分数又涨了多少”,而是 Anthropic 把重点放在了工程场景里很真实的几个问题上:模型能不能少走弯路,能不能在证据不够时承认不确定,能不能把长上下文里的风格、约束和任务目标稳稳带下去。

Opus 4.8 改进了什么#

官方说 Opus 4.8 在 coding、agentic skills、reasoning 和 practical knowledge work 上都有提升。第一张对比图能比较直观看出这次升级的重点:Opus 4.8 在 SWE-Bench Pro、OSWorld-Verified、GDPval-AA、Finance Agent v2 等项目上都比 Opus 4.7 更高。

Opus 4.8 与 Opus 4.7、GPT-5.5、Gemini 3.1 Pro 的 benchmark 对比

早期测试者的反馈也集中在几个关键词上:更可靠、更会追问、更少自信犯错。

这里有个细节挺重要。Anthropic 提到,在它们的评测中,Opus 4.8 比上一代更不容易让自己写出的代码问题“悄悄溜过去”,概率大约降低到原来的四分之一。对日常开发来说,这比单纯的跑分更贴近体感。代码模型最烦人的地方,往往不是不会写,而是写错后还一副已经搞定的样子。

第二张图对应的是 Anthropic 对 misaligned behavior 的评估。Opus 4.8 的分数明显低于 Opus 4.7,也接近 Mythos Preview。这里的重点不是“模型更乖”,而是它在回答、执行任务、处理不确定信息时,少一些偏离用户目标或自我合理化的行为。

Opus 4.8 在 misaligned behavior 评估中的对比

Claude Code 也一起升级#

Opus 4.8 不是单独发布的。Claude Code 同时引入了 dynamic workflows,处在 research preview 阶段。它允许 Claude 为更大的任务做规划,并在一次 session 里运行大量并行 subagents,最后再验证结果。

官方举的例子是大规模代码迁移:跨几十万行代码,从 kickoff 到 merge,用现有测试套件作为验收标准。这个方向很清楚,Anthropic 想把 Claude Code 从“帮我改几处代码”推向“接住一整块工程任务”。

effort control 更实用了#

claude.ai 和 Cowork 新增了 effort control。用户可以自己决定 Claude 在一次回答里投入多少 effort:高 effort 更适合复杂任务,低 effort 则更快,也更省 rate limit。

Opus 4.8 默认使用 high effort。对于更难的任务,Anthropic 建议使用 extra,在 Claude Code 里对应 xhigh。这类设置以后会越来越重要,因为同一个模型不再只是“快或慢”,而是可以按任务成本来调节工作方式。

价格和 API#

Opus 4.8 的常规价格保持和 Opus 4.7 一样:每百万 input tokens 5 美元,每百万 output tokens 25 美元。fast mode 价格是每百万 input tokens 10 美元、output tokens 50 美元,速度最高可到 2.5 倍,并且比之前模型的 fast mode 便宜三倍。

开发者可以通过 Claude API 使用 claude-opus-4-8。Messages API 也有一个小但实用的变化:现在可以在 messages array 里放 system entries,用来在任务中途更新指令、权限、token budget 或环境上下文,同时不破坏 prompt cache。

这次发布的重点#

Opus 4.8 更像是一次“把模型放进真实工作流之后”的修补和加强。它没有把话说得太满,官方也承认这是对上一代的 modest but tangible improvement。

但如果你主要用 Claude 写代码、跑长任务、做 agent workflow,这次升级值得试。真正影响效率的,未必是模型多会说,而是它在几个小时的任务里少犯多少自信的错。

分享

如果这篇文章对你有帮助,欢迎分享给更多人!

部分信息可能已经过时

目录