Claude Sonnet 5 正式发布:性能逼近 Opus 4.8,便宜 60% 为何反被吐槽”更贵”?

Ai资讯2小时前发布 大国Ai
31 0 0

摘要: 2026 年 7 月 1 日,Anthropic 正式发布 Claude Sonnet 5,自称”迄今最具 Agent 属性的 Sonnet 模型”,可制定计划、调用浏览器与终端、自主完成多步骤任务。它在推理、工具使用、编程与知识工作等关键维度全面逼近旗舰 Opus 4.8,并在 GDPval-AA v2 知识工作评测上以 1618 分反超 Opus 4.8 的 1615 分。优惠期定价低至输入 $2 / 输出 $10 per M tokens,比 Opus 4.8 便宜约 60%。然而,全新 tokenizer 与更高 effort 模式带来的 token 消耗激增,让”每任务实际成本”不降反升——Artificial Analysis 测算其单任务成本 $2.29,比 Sonnet 4.6 翻倍、甚至比 Opus 4.8 还贵约 15%。本文从能力跃迁、基准横评、定价争议、安全评估、商业背景五个维度,带你拆解这场”看似便宜、实则更贵”的发布。


一、Sonnet 5 是什么:定位与发布时机

Anthropic 在 2026 年 6 月 30 日(北京时间 7 月 1 日清晨)正式推出 Claude Sonnet 5。官方将其描述为”Sonnet 系列里最强的 agentic model”,是新一代主力模型,面向日常高频工作流,主打编码、工具调用、浏览器/终端使用、规划与知识工作。

Claude Sonnet 5 正式发布:性能逼近 Opus 4.8,便宜 60% 为何反被吐槽"更贵"?

值得注意的是,Agent 能力的爆发此前主要集中在 Opus 级模型上,而 Claude Sonnet 3.5/3.6/3.7 才是 Anthropic 最早在编程和工具使用上展现出亮眼能力的一批模型。Sonnet 5 的出现,明显是为了缩小 Sonnet 与 Opus 之间的”Agent 能力鸿沟”,让中端模型也能承担长时间自主运行的任务。

从发布节奏看,Opus 4.8 于 5 月 28 日上线,定位”可靠旗舰”,标准层定价 $5/$25,并提供 $10/$50 的 Fast 模式。Sonnet 5 紧随其后于 6 月 30 日发布,并成为 Free 与 Pro 套餐的默认模型。Anthropic 还同步将其集成进 Claude Code 与 Claude Platform,开发者调用 API 时可直接指定 claude-sonnet-5

二、性能横评:差距从 11.1 个百分点缩到 6 个百分点

Anthropic 在官方博客中给出的对比图,是这次发布最关键的”成绩单”。我们将其与第三方榜单交叉验证,可以更清楚地看到 Sonnet 5 到底进步了多少。

1. 智能体编程(Agentic Coding)

  • SWE-bench Pro:Sonnet 5 拿到 63.2%,高于前代 Sonnet 4.6 的 58.1%,距离 Opus 4.8 的 69.2% 仍有 6 个百分点差距——而前代这一差距是 11.1 个百分点。
  • Terminal-Bench 2.1:Sonnet 5 拿到 80.4%,比 Sonnet 4.6 的 67.0% 提升了 13.4 个百分点,与 Opus 4.8 的 82.7% 仅差 2.3 个百分点。这是 Sonnet 5 提升最显著的编码类基准之一。

2. 多学科推理(Humanity’s Last Exam)

Anthropic 此次更新了 HLE 评分模型,并将 Sonnet 4.6 的分数修正为 34.6%(无工具)/46.8%(有工具)。在这一更严格的口径下:

  • 无工具:Sonnet 5 为 43.2%,Opus 4.8 为 49.8%,差 6.6 个百分点。
  • 有工具:Sonnet 5 飙升至 57.4%,与 Opus 4.8 的 57.9% 基本持平,差距仅 0.5 个百分点。

这暗示一个有意思的现象:在”工具加持”的智能体场景里,Sonnet 5 与 Opus 4.8 几乎可以互换;但在”纯脑力推理”上,Opus 仍保有清晰优势。

3. 计算机使用(OSWorld-Verified)

Sonnet 5 得分 81.2%,较修正后的 Sonnet 4.6(78.5%)提升 2.7 个百分点,与 Opus 4.8 的 83.4% 差 2.2 个百分点。更重要的是,Sonnet 5 在以更低单任务成本接近 Opus 4.8 准确度的同时,覆盖的成本-性能选项区间更宽。

4. 知识工作(GDPval-AA v2)

这是 Sonnet 5 唯一直接超过 Opus 4.8 的项目:1618 分对 1615 分。在 Real-World Finance v2 与 AA-Briefcase 上两者同样基本打平,AA-Briefcase 上 Sonnet 5 甚至以 1393 领先 Opus 4.8 的 1352(虽然它跑了更多轮次才追上)。claudefa.st 给出的结论很直白:”知识工作两者可互换,编程/终端/计算机使用/推理 Opus 仍领先 0.5~6.6 个点。”

5. 安全性维度的”反超”:浏览器提示注入

一个被开发者广泛关注的点是浏览器使用场景下的提示注入攻击成功率:Sonnet 5 仅 0.93%,而 Opus 4.8 高达 31.5%,Sonnet 4.6 更是 50.7%。这意味着对于要在浏览器、邮箱、银行账户等真实网页环境中跑很久的 Agent,Sonnet 5 反而比 Opus 4.8 更”安全可用”。

三、定价争议:表面便宜 60%,实际可能更贵

这是本次发布最容易让用户踩坑的地方,也是网友 Theo 直呼”太贵了”的根源。

1. 账面价格:确实便宜约 60%

  • 优惠期(即日起至 2026 年 8 月 31 日):输入 $2 / 输出 $10 per M tokens。
  • 标准价(9 月 1 日起):输入 $3 / 输出 $15 per M tokens。
  • 对比 Opus 4.8:输入 $5 / 输出 $25 per M tokens。

按 token 单价算,标准价下 Sonnet 5 比 Opus 4.8 便宜约 40%,优惠期便宜约 60%。Context window 维持 1M tokens。

2. 隐藏成本一:新 tokenizer 让 token 数变多

Sonnet 5 采用全新 tokenizer,与 Claude Opus 4.7 引入的变更类似。相同输入内容现在会映射为 1.0~1.35 倍的 token 数,具体倍数取决于内容类型。Anthropic 自己也承认,尝鲜价正是为了让用户过渡时”整体使用成本大致保持不变”——这等于变相承认标准价下成本会被抬高。

3. 隐藏成本二:max effort 模式下 token 消耗暴涨

Artificial Analysis 的实测数据更扎心:在 Intelligence Index 任务上,Sonnet 5(max effort)每项任务平均输出 token 比Sonnet 4.6 多约 40%,知识工作评测 AA-Briefcase 和 GDPval-AA 的 agentic turns 更是达到 3 倍。在 GDPval-AA 上,max effort 比 low effort 多用约 6 倍轮次。

结果就是:单任务成本 $2.29,比 Sonnet 4.6 翻 2 倍,比 Opus 4.8 还高约 15%,仅次于 Fable 5,成为运行成本最高的模型之一。网友 Theo 在跑完整 benchmark 后的对比图也显示,Sonnet 5(max)整套跑下来比 Fable 还贵。

4. 怎么选:Anthropic 的”effort 旋钮”逻辑

Anthropic 自己给出的指引其实很坦率:“Opus 4.8 仍是更高准确率任务的优先选择,但 Sonnet 5 为开发者提供了更低价格的选项;用户可在两者之间调整 effort,找到成本与性能的平衡。”

实操建议:把 Sonnet 5 当默认日常模型,遇到最难的 agentic-coding 与 max-accuracy 任务时再升级到 Opus 4.8。

四、安全评估:整体改进,但网络安全仍是短板

1. 整体更安全,但不及 Opus/Mythos

部署前安全评估显示,Sonnet 5 在拒绝恶意请求、抵御提示注入劫持方面优于 Sonnet 4.6,幻觉率与谄媚率也更低。在自动化行为审计(覆盖滥用协助、欺骗等广泛失当行为)中,Sonnet 5 总分低于 Sonnet 4.6。但与 Opus 4.8、Claude Mythos Preview 相比,它在同一审计中显示出略高的失当行为率。

2. Firefox 漏洞开发:能力上限被刻意压低

在与 Mozilla 合作的 Firefox 147 漏洞利用开发评估中(所有漏洞已在 Firefox 148 修复):

  • Sonnet 5:完全成功率 0.0%,部分成功率 13.2%
  • Sonnet 4.6:0.0% / 8.8%
  • Opus 4.8:68.8% 部分成功
  • Mythos 5:90.0%

Anthropic 表示并未刻意针对网络安全任务训练 Sonnet 5,其部分成功率的提升主要源于通用智能改进。鉴于其整体网络安全风险较低,Anthropic 默认启用了与 Opus 4.7/4.8 相同的网络安全护栏(严格程度低于 Fable 5)。

3. 网络安全验证计划

Sonnet 5 已纳入 Anthropic 的”网络安全验证计划”,现已在 Claude 原生平台、AWS 上的 Claude 平台、Microsoft Foundry 中的 Claude(托管于 Azure 和 Anthropic)开放,Google Vertex 上的 Claude 即将支持。已加入该计划的组织无需重新申请。如果网络安全工作需要更少的安全护栏限制,Anthropic 推荐使用 Claude Opus 4.8。

五、商业背景:低价策略冲刺 IPO

此次发布并非单纯的技术迭代,它还承担着明确的资本叙事任务。

Anthropic 于 6 月 1 日秘密提交 S-1 文件,5 月完成 650 亿美元 H 轮融资后估值达 9650 亿美元,年化营收已突破 470 亿美元。Sonnet 5 的低价策略正值公司推进 IPO 进程,旨在以高性价比扩大企业市场份额。

早期合作伙伴反馈也基本一致正面:

  • Cursor 联合创始人:Sonnet 5 能”遵循计划、遵守规范,并以高效成本完成多步骤变更”。
  • Zapier 高级工程师 Daniel Shepard:此前模型”往往进行到一半就卡住”的两部分自动化任务,Sonnet 5 已能端到端完成。
  • Factory 工程师 Zimu Li:Sonnet 5 为多步骤软件工程工作提供了强执行层,能处理”杂乱技术上下文”中的持续编码、工具调用与调试。

这种”可靠性”正是企业把 AI 从试点推向生产部署的关键——也是 Anthropic 在招股书里最想讲给二级市场听的故事。

六、第三方榜单:Sonnet 5 在大盘中排第几?

Artificial Analysis Intelligence 榜单中,Claude Sonnet 5(max)得分 53,与 GPT-5.5(high)同档,低于 Claude Opus 4.8(high)、GPT-5.5(xhigh)、Claude Opus 4.7(max)。在 CritPt(前沿物理推理基准,由 Argonne 与 UIUC 研究者开发)上,Sonnet 5 得分 17%,比前代高 14 个点,但落后于 GLM-5.2、Claude Opus/Fable、GPT-5.5(xhigh 与 Pro)。

值得一提的是,BrowseComp 上 Sonnet 5 以 84.7% 的单 Agent 准确率与 Opus 4.8 在给定任务成本下”基本可比”;而 Terminal-Bench 2.1 上 Sonnet 5(80.4%)甚至比 llm-stats 表里的 Opus 4.8(74.6%)还高 5.8 个点——不同 harness 下数值会有差异,但趋势是清楚的:在终端与浏览器这两类”Agent 重场景”,Sonnet 5 已经摸到旗舰门槛。

七、给你的选型建议

把所有信号综合起来,可以总结成三条简单结论:

  1. 日常默认选 Sonnet 5:在浏览器、终端、知识工作、agentic search 这类高频任务上,它与 Opus 4.8 几乎可以互换,且浏览器场景更安全。
  2. 硬推理/硬编程选 Opus 4.8:USAMO 2026(79.5% vs 96.7%)、SWE-bench Pro、Toolathlon 等高难度长程任务上,Opus 4.8 仍有不可替代的优势。
  3. 不要只看 token 单价:Sonnet 5 在 max effort 下的实际单任务成本可能反超 Opus 4.8。如果你的工作流会自动把 effort 拉满,做预算前务必先用真实任务跑一次成本测算。

Anthropic 这一次的发布,本质上是在告诉市场:”Sonnet 与 Opus 不再是两个割裂的层级,而是一条连续的成本-性能曲线上的两个旋钮。”至于用户愿意为哪一档精度多付多少 token 钱,就看你跑的是聊天气泡里的 demo,还是真实生产环境里的 Agent。


文章来源: 大国 AI 导航(daguoai.com)综合 Anthropic 官方公告、Claude Sonnet 5 系统卡、Artificial Analysis 评测、llm-stats 基准数据库及多家科技媒体报道整理。

© 版权声明

相关文章

暂无评论

none
暂无评论...