LIXUWEI

本站网址

blog.apodfg.com

标签

AI Experience 故障排查

LIXUWEI

T

X

E

本站网址

blog.apodfg.com

标签

LIXUWEI

本站网址

blog.apodfg.com

标签

AI Experience 故障排查

站点统计

文章

22

分类

5

标签

3

总字数

23,303

运行天数

0 天

最后活动

-

位置

1081 字

3 分钟

Claude Opus 4.8 发布

2026-05-29

2026-05-28

Technology

AI

Claude Opus 4.8 发布：一次更偏工程协作的升级#

Anthropic 在 2026 年 5 月 28 日发布了 Claude Opus 4.8。看名字就知道，这不是一次推倒重来的大版本，而是对 Opus 4.7 的继续打磨：更强的 benchmark 表现，更适合长任务协作，也更强调模型在工作过程中的判断力。

这次发布里，我觉得最值得看的不是“分数又涨了多少”，而是 Anthropic 把重点放在了工程场景里很真实的几个问题上：模型能不能少走弯路，能不能在证据不够时承认不确定，能不能把长上下文里的风格、约束和任务目标稳稳带下去。

Opus 4.8 改进了什么#

官方说 Opus 4.8 在 coding、agentic skills、reasoning 和 practical knowledge work 上都有提升。第一张对比图能比较直观看出这次升级的重点：Opus 4.8 在 SWE-Bench Pro、OSWorld-Verified、GDPval-AA、Finance Agent v2 等项目上都比 Opus 4.7 更高。

Opus 4.8 与 Opus 4.7、GPT-5.5、Gemini 3.1 Pro 的 benchmark 对比

早期测试者的反馈也集中在几个关键词上：更可靠、更会追问、更少自信犯错。

这里有个细节挺重要。Anthropic 提到，在它们的评测中，Opus 4.8 比上一代更不容易让自己写出的代码问题“悄悄溜过去”，概率大约降低到原来的四分之一。对日常开发来说，这比单纯的跑分更贴近体感。代码模型最烦人的地方，往往不是不会写，而是写错后还一副已经搞定的样子。

第二张图对应的是 Anthropic 对 misaligned behavior 的评估。Opus 4.8 的分数明显低于 Opus 4.7，也接近 Mythos Preview。这里的重点不是“模型更乖”，而是它在回答、执行任务、处理不确定信息时，少一些偏离用户目标或自我合理化的行为。

Opus 4.8 在 misaligned behavior 评估中的对比

Claude Code 也一起升级#

Opus 4.8 不是单独发布的。Claude Code 同时引入了 dynamic workflows，处在 research preview 阶段。它允许 Claude 为更大的任务做规划，并在一次 session 里运行大量并行 subagents，最后再验证结果。

官方举的例子是大规模代码迁移：跨几十万行代码，从 kickoff 到 merge，用现有测试套件作为验收标准。这个方向很清楚，Anthropic 想把 Claude Code 从“帮我改几处代码”推向“接住一整块工程任务”。

effort control 更实用了#

claude.ai 和 Cowork 新增了 effort control。用户可以自己决定 Claude 在一次回答里投入多少 effort：高 effort 更适合复杂任务，低 effort 则更快，也更省 rate limit。

Opus 4.8 默认使用 high effort。对于更难的任务，Anthropic 建议使用 extra，在 Claude Code 里对应 xhigh。这类设置以后会越来越重要，因为同一个模型不再只是“快或慢”，而是可以按任务成本来调节工作方式。

价格和 API#

Opus 4.8 的常规价格保持和 Opus 4.7 一样：每百万 input tokens 5 美元，每百万 output tokens 25 美元。fast mode 价格是每百万 input tokens 10 美元、output tokens 50 美元，速度最高可到 2.5 倍，并且比之前模型的 fast mode 便宜三倍。

开发者可以通过 Claude API 使用 claude-opus-4-8。Messages API 也有一个小但实用的变化：现在可以在 messages array 里放 system entries，用来在任务中途更新指令、权限、token budget 或环境上下文，同时不破坏 prompt cache。

这次发布的重点#

Opus 4.8 更像是一次“把模型放进真实工作流之后”的修补和加强。它没有把话说得太满，官方也承认这是对上一代的 modest but tangible improvement。

但如果你主要用 Claude 写代码、跑长任务、做 agent workflow，这次升级值得试。真正影响效率的，未必是模型多会说，而是它在几个小时的任务里少犯多少自信的错。

如果这篇文章对你有帮助，欢迎分享给更多人！

部分信息可能已经过时

又到一年高考季，鄙人与三位导师研究了下今年语文作文命题趋势

Claude新模型Opus 4.8蒸馏DeepSeek千问

わたしの部屋

Claude Opus 4.8 发布：一次更偏工程协作的升级#

Opus 4.8 改进了什么#

Claude Code 也一起升级#

effort control 更实用了#

价格和 API#

这次发布的重点#

目录