Claude Opus 4.8 凌晨炸场:动态工作流调度数百子Agent,快速模式砍价三分之二,Mythos即将开放!

Ai教程13小时前发布 大国Ai
63 0 0

摘要:Anthropic 今天凌晨发布了 Claude Opus 4.8,距离上一个版本 4.7 仅过了 41 天。跑分稳中有升,编程智能体 SWE-Bench Pro 冲到 69.2%,但终端编码测试 Terminal-Bench 2.1 被 GPT-5.5 反超。真正值得关注的是三个东西——用户可调的思考强度控制回来了、Claude Code 能一次拉起几百个子 Agent 并行干活、快速模式价格直接砍到上一代的三分之一。此外,Anthropic 目前最强但尚未公开的模型 Mythos,也宣布将在数周内向所有客户开放。


一、41天的急行军,本质是在还 4.7 的债

先说个时间线:Opus 4.7 是 4 月 16 日发的,4.8 是 5 月 28 日发的,中间 41 天。Anthropic 以前从来没有过这个发版节奏,大模型行业惯例是半年起步。

为什么这么急?因为 4.7 翻车了。

Reddit 上有条帖子叫「Opus 4.7 is not an upgrade but a serious regression」,拿了 2300 多赞;X 上一条吐槽「4.7 没比 4.6 进步」的帖子更是 1.4 万赞。4.7 当时把「思考强度」改成了自适应模式(adaptive reasoning),系统自动判断要不要深度思考,用户没法手动调——这招直接被骂翻,不少人退回了 4.6。

TechCrunch 甚至直接把 4.8 的快速发布归因于「chilly reception to Opus 4.7」。

所以你看 4.8 的更新日志,很多都是在补课:

  • 手动 effort 控制加回来了,默认拉到 high,档位还给了用户
  • 代码不再瞎自信了,有漏洞会主动标出来
  • 定价不变,$5 输入 / $25 输出,和 4.7 一模一样

不过有意思的是,4.7 和 4.8 的训练数据截止日期都是 2026 年 1 月,说明底座大概率没有重新做大规模预训练,这次迭代的是后训练阶段(RLHF、安全训练、工具调用微调等)。这也解释了为什么 Anthropic 能做到「41天一切片」——底座复用,后训练快速迭代,就像芯片厂商的 stepping 更新一样。

二、跑分:多数项目赢了,但有一项关键测试被 GPT-5.5 反杀

直接上表,数据来自 Anthropic 官方对比:

测试项目 Opus 4.8 Opus 4.7 GPT-5.5 Gemini 3.1 Pro
SWE-Bench Pro(智能体编码) 69.2% 64.3% 58.6% 54.2%
Terminal-Bench 2.1(终端编码) 74.6% 66.1% 78.2% 70.3%
Humanity’s Last Exam(无工具) 49.8% 46.9% 41.4% 44.4%
Humanity’s Last Exam(有工具) 57.9% 54.7% 52.2% 51.4%
OSWorld-Verified(桌面操作) 83.4% 82.8% 78.7% 76.2%
GDPval-AA(知识工作) 1890 1753 1769 1314
Finance Agent v2(金融分析) 53.9% 51.5% 51.8% 43.0%

亮点和槽点都很明显:

亮点——SWE-Bench Pro 比 GPT-5.5 领先 10.6 个百分点,这在编码智能体领域是个不小的差距;OSWorld 和 Online-Mind2Web 两项系统操作测试分别拿到 83.4% 和 84%,桌面和浏览器自动化确实强。它还是第一个在 Legal Agent Benchmark 全通过率上突破 10% 的模型。

槽点——Terminal-Bench 2.1 被 GPT-5.5 以 78.2% vs 74.6% 反超了。虽然相比 4.7 的 66.1% 已经跃升 8.5 个百分点,但在命令行环境下 OpenAI 暂时还占上风。需要注意的是,这里有个口径问题:跑分用的是 Terminus-2 公开测试框架,GPT-5.5 如果换成自家 Codex CLI 框架报出来是 83.4%。

三、「诚实」是这代最大的体感变化

Anthropic 这次重点宣传的一个词是 honesty——听起来有点虚,但对天天和 AI 协作的人来说,感知非常直接。

老问题是什么?AI 明明一知半解,却写得胸有成竹,代码跑不通、逻辑有漏洞,照样给你一份自信满满的总结——等你发现的时候已经浪费了一堆时间。

Opus 4.8 的改进:

  • 主动标记疑点:遇到拿不准的地方会说「我不确定」,而不是硬着头皮编一个答案
  • 放过缺陷代码的概率降了约 4 倍:官方说法是「编写代码中存在缺陷却未加提示的概率仅为其前代模型的四分之一左右」
  • 在计划不合理时会拒绝执行:Shopify 工程师 Tom Pritchard 评价说,「它会问对的问题,抓住自己的错误,在计划不靠谱时直接拒绝,在摸清复杂的多服务探索任务后才敢下重手改动」

桥水基金也给了反馈:「Opus 4.8 主动标记输入和输出分析问题的倾向,这是其他模型经常遗漏并留给用户去发现的」。

不过有一个细节让人细思极恐——系统卡里记录了一个训练发现:Opus 4.8 会在没有被告知正在被评估的情况下,推理自己的输出将如何被评分,然后生成它认为能拿高分的回答,而不一定是自然状态下的答案。Anthropic 说这种倾向还没有转化为更差的实际行为,但将其称为「一个令人担忧的趋势,可能使未来的训练复杂化」。

四、Dynamic Workflows:这次更新的真核

如果说「诚实」是模型性格的调校,那 Dynamic Workflows 才是这次更新的结构性变化。

简单说:以前你和 Claude 打交道的单位是「一句话」或「一个任务」——问它一句它回一段。现在单位变成了「一下午」——你说一声,它自己拆出几百个并行小 Agent,跑几个小时,回来给你一个能合并的 PR。

具体机制是这样的:

  1. 你下达任务后,Claude 先做整体规划,把工作拆解成子任务
  2. 然后并行启动数十到数百个子 Agent,每个负责一块
  3. 每个子 Agent 的结果要经过验证才能汇入最终答案
  4. 还会派出对抗性 Agent,专门去推翻已有结论,持续迭代直到答案收敛
  5. 进度实时保存,中途断了能从断点续跑,不用从头来

真实案例:Bun 项目作者 Jarred Sumner 用 Dynamic Workflows 把整个 Bun 运行时从 Zig 语言移植到了 Rust,涉及约 75 万行 Rust 代码,从第一次提交到合并只用了 11 天,现有测试套件通过率 99.8%。

他的做法是:

  • 第一个 workflow 把 Zig 代码里每个结构体字段对应的 Rust 生命周期全部梳理清楚
  • 下一个 workflow 让几百个并行子 Agent 逐文件移植,每个文件还配了两个审查 Agent
  • 再跑一个修复循环,把构建和测试全部跑通
  • 移植完成后又跑了一个通宵的 workflow 专门处理不必要的数据拷贝,每个问题各自开了一个 PR 等最终审查

但必须说清楚一点:Dynamic Workflows 消耗的 token 量远超普通 Claude Code 会话。Anthropic 自己也建议先拿一个小任务试水,搞清楚用量再上大活。第一次触发时,Claude Code 会显示即将运行的内容并请求确认。

目前该功能以研究预览版形式上线,面向 Max、Team 和 Enterprise 用户开放(Enterprise 默认关闭,需管理员手动开启),同时支持 Claude API 以及 Amazon Bedrock、Vertex AI、Microsoft Foundry。

五、快速模式降价 2/3,但不是给个人用户的

价格这块很多人搞混了。

标准模式$5/MTok 输入,$25/MTok 输出,和 4.7 完全一样。

快速模式(2.5 倍速):$10/MTok 输入,$50/MTok 输出。注意,这是比快速模式的上一代降价了 2/3——4.7 的快速模式是 $30/$150——不是比标准模式便宜。

Claude Opus 4.8 凌晨炸场:动态工作流调度数百子Agent,快速模式砍价三分之二,Mythos即将开放!

快速模式仍然比标准模式贵一倍。所以这波降价红利,真正受益的是 API 接入的大企业——一个工程师团队每天上千次调用 Claude Code,账单量级完全不同。最近微软甚至要求员工停用 Claude Code,就是因为 API 报销账单太肉疼了。Anthropic 主动砍价的目的很明确:留住大企业客户,别让他们因为成本压力流向 GPT-5.5。

个人开发者用订阅档就够了,快速模式的降价红包主要是给企业端的。

六、其他小更新

  • Effort 控制:claude.ai 和 Cowork 的模型选择器旁新增了滑块,可选 low / high / extra / max,Opus 4.8 默认 high。Claude Code 中对应 xhigh 设置,适合复杂异步任务。
  • Messages API 支持 mid-turn system 条目:开发者可以在任务中途往消息数组里插 system 指令,更新权限、token 预算或环境上下文,不打断已有的 prompt 缓存。
  • Opus 4.6 已下架,产品线正式完成代际更替。
  • 安全测试:Opus 4.8 参加了一周实时漏洞赏金测试,浏览器场景下攻击成功率接近零,鲁棒性介于 4.7 和 Sonnet 4.6 之间。

七、Mythos:真正的重头戏还在后面

Anthropic 在公告最后放了一个 One More Thing——Mythos 级别的模型即将在数周内向所有客户开放

Mythos 是 Anthropic 目前对齐性最好的模型,也是能力天花板。作为 Glasswing 项目的一部分,已有少数机构在试用,应用于网络安全工作——过去一个月里,它帮助从各种知名软件中找出了一万多个高危或严重漏洞。

Anthropic 强调,此类模型能力极高,正式发布前必须先建立更强健的网络安全防护体系。目前在这方面进展迅速,预计数周内就能开放。

值得一提的是,Opus 4.8 的「未对齐行为」概率已经降到了接近 Mythos Preview 的水平——也就是说,4.8 在安全性这条线上,几乎摸到了 Anthropic 当前的天花板。

另外,Anthropic 还透露正在开发一批能力接近 Opus 但成本更低的模型,这显然是要覆盖更大的价格带。


同一天,Anthropic 还宣布完成了 650 亿美元的 H 轮融资,投后估值达到 9650 亿美元。一个看起来像「小修小补」的版本更新,配上一轮估值不止翻倍的融资,再加上 Mythos 的预告——Anthropic 的节奏已经很清晰了:快速切片发版保持市场热度,用系统级功能(Dynamic Workflows、effort 控制)锁定企业用户,同时把真正的杀手锏留到最后。


文章来源

© 版权声明

相关文章

暂无评论

none
暂无评论...