Claude Sonnet 5发布:性能逼近Opus 4.8,Anthropic押注Agent能力与性价比

Ai资讯2小时前发布 大国Ai
33 0 0

摘要

2026年6月30日深夜,Anthropic正式发布新一代中端主力模型Claude Sonnet 5,定位为”迄今智能体能力最强的Sonnet模型”。该模型在推理、工具调用、编程和知识工作等关键维度上较Sonnet 4.6实现显著提升,多项基准测试成绩已逼近甚至持平旗舰模型Opus 4.8,而API定价仅为后者的约60%。同期,Anthropic还推出了面向科研人员的AI工作台Claude Science。本文将从性能表现、定价策略、Agent能力、安全评估及生态布局五个维度,全面解析Sonnet 5的产品定位与市场影响。


一、发布背景与产品定位

Anthropic此次发布节奏紧凑——在Fable 5回归前夕抢先推出中端新模型,被业内解读为高端模型出口管制危机后的市场补位动作。从产品命名上看,Sonnet 5直接跳过了4.7和4.8两个版本号,从Sonnet 4.6跃升至5.0,显示出Anthropic对这次升级的信心。

Claude Sonnet 5发布:性能逼近Opus 4.8,Anthropic押注Agent能力与性价比

官方将Sonnet 5定位为”日常高频工作流主力”,主打编码、工具调用、浏览器/终端使用、规划与知识工作。这一定位的战略意图很明确:将原本只在旗舰Opus系列上才具备的Agent能力下放到中端档位,让对成本敏感、又需要稳定执行多步任务的团队获得新的默认选项。

Anthropic在官方博客中写道:智能体时代对很多开发者来说始于Sonnet级别模型,Claude Sonnet 3.5、3.6和3.7是首批在编码和工具使用方面展现出技能的模型,但近期智能体能力最显著的提升主要来自Opus级别。Sonnet 5的使命,就是缩小这一差距。

二、基准测试全面跳涨,一项评估直接反超Opus

Anthropic公布了五项主要评估成绩,Sonnet 5在所有项目上均较前代Sonnet 4.6有明显提升,并在其中一项上实现了对Opus 4.8的反超。

智能体编码能力(SWE-bench Pro):Sonnet 5得分63.2%,Sonnet 4.6为58.1%,Opus 4.8为69.2%。差距从前代的11.1个百分点缩小到6个百分点。

终端编码能力(Terminal-Bench 2.1):Sonnet 5拿到80.4%,Sonnet 4.6仅67.0%,Opus 4.8为82.7%。这项评估上Sonnet 5较前代提升了13.4个百分点,与Opus 4.8的差距只剩2.3个百分点。

多学科推理(Humanity’s Last Exam):Anthropic在此次发布中更新了评分模型,将Sonnet 4.6的得分修正为34.6%(无工具)和46.8%(有工具)。Sonnet 5在无工具条件下得分43.2%,有工具辅助下得分57.4%——与Opus 4.8的57.9%基本持平,差距仅0.5个百分点。

计算机使用能力(OSWorld-Verified):Sonnet 5得分81.2%,Sonnet 4.6为78.5%(评分方式调整后),Opus 4.8为83.4%。

知识工作(GDPval-AA v2):这是Sonnet 5唯一直接超过Opus 4.8的项目——Sonnet 5得分1618分,Sonnet 4.6为1395分,Opus 4.8为1615分。

在第三方榜单方面,Artificial Analysis Intelligence Index显示,Claude Sonnet 5 max得分53,与GPT-5.5 high同档。Cursor官方也宣布接入Sonnet 5,并给出CursorBench 3.1数据:Sonnet 5为57%,Sonnet 4.6为49%,Sonnet 5 high default已接近Opus 4.8 high水平,但平均单任务成本更低。

三、定价策略:标价低≠实际便宜

价格是Sonnet 5的核心卖点之一。8月31日前,Sonnet 5享受限时首发价:每百万输入token 2美元、输出token 10美元;优惠期结束后恢复标准定价:输入3美元、输出15美元。

作为对比,Opus 4.8的定价是输入5美元、输出25美元。按标准定价计算,Sonnet 5每百万token的成本比Opus 4.8低约六成;优惠期内更是低至Opus 4.8的40%。

但需要警惕的是,标价低并不等于实际便宜。Sonnet 5启用了更新后的tokenizer,相同文本会被切成更多token,增幅约为1.0~1.35倍。Artificial Analysis的分析数据显示,在Intelligence Index上,Claude Sonnet 5完成一次任务的平均成本为2.29美元,相比Sonnet 4.6增加约2倍,甚至比Claude Opus 4.8的1.80美元高出约15%——这一成本上升完全由token使用量增加所驱动。

按Cost per Intelligence Index Task计算,Claude Sonnet 5 max单任务成本2.29美元,Claude Opus 4.8 max是1.80美元,GPT-5.5 xhigh是1.03美元,而智谱GLM-5.2 max仅为0.48美元。这意味着Sonnet 5的实际单任务成本是GLM-5.2的约4.75倍,在性价比上并不占优。

Anthropic对此的解释是:促销价的设计意图就是让用户从4.6迁移到5时,整体使用成本”大致持平”。但”大致”意味着存在变量,运行高容量工作负载的企业客户需要对自己特定用例做基准测试,不能直接假定账单不变。

四、Agent能力突出:浏览器注入攻击成功率仅0.93%

Sonnet 5最大的亮点在Agent能力。Anthropic早期访问合作伙伴反馈一致:Sonnet 5比其前代模型更具自主智能体能力——它能完成复杂任务,而之前的Sonnet模型会在这些任务上中途止步;它会主动检查自己的输出,无需明确提示。

特别值得关注的是浏览器使用场景下的安全性。根据system card,浏览器使用场景下的提示注入攻击成功率,Sonnet 5只有0.93%,而Opus 4.8是31.5%,Sonnet 4.6是50.7%。这一数据对实际部署Agent应用的开发者意义重大。

Sonnet 5支持五档effort:low / medium / high / xhigh / max,Sonnet系列首次新增xhigh档,与Opus 4.8对齐。在中等努力程度下,Sonnet 5显著提升了成本效率;在更高努力程度下,其性能在某些任务上可媲美Opus 4.8。用户可根据具体任务灵活调整努力程度,找到最适合自身需求的成本与性能平衡点。

此外,Sonnet 5默认支持1M token上下文窗口,与Opus 4.6/4.7/4.8相同(注意Haiku 4.5是200K)。这对agent任务很关键——长任务里不只是要塞很多资料,还要保留过程状态,比如改过哪些文件、跑过哪些命令、哪些方案已经失败、用户补充过什么限制。

五、安全评估:整体优于Sonnet 4.6,仍逊于旗舰

Anthropic的部署前安全评估发现,Sonnet 5整体上相比Sonnet 4.6有所改善:

  • 代理安全:更善于拒绝恶意请求、抵御提示注入中的劫持企图,幻觉率与谄媚(sycophancy)倾向也更低。
  • 自动化行为审计:覆盖配合滥用、欺骗等广泛不当行为,Sonnet 5的总体得分低于Sonnet 4.6,即更安全。

不过,与能力更强的Opus 4.8和Claude Mythos Preview相比,Sonnet 5在相同审计中显示出略高的不当行为发生率。这印证了Anthropic安全评估的一套梯度体系:模型能力越强,安全对齐表现越好。Sonnet 5处于中间位置,优于前代但不及旗舰。

在网络安全方面,Anthropic与Mozilla合作评估了模型针对Firefox 147浏览器漏洞开发利用程序的能力。两个Sonnet模型均未能成功开发出可用的漏洞利用程序(成功率0.0%),Sonnet 5的部分成功率为13.2%,Sonnet 4.6为8.8%。与之相比,Opus 4.8的漏洞利用成功率为68.8%,Mythos 5为88.4%。Anthropic表示没有特意针对网络安全任务训练Sonnet 5,由于整体网络风险判断为较低水平,默认启用了与Opus一致的网络安全护栏,但严格程度低于Fable 5。

六、同步发布Claude Science:面向科研人员的AI工作台

此次发布Anthropic还放出了第二个重磅更新——Claude Science,一款面向科研人员的AI工作台应用(目前为beta版)。

Claude Science把分散的工具整合进了同一个研究环境,覆盖科研工作的各个阶段:分析文献、执行多步骤研究、生成详细的产出物,并支持反复打磨图表和论文手稿直到达到可发表水准。用户面对的是一个统筹型主Agent,背后接入了60多个针对基因组学、单细胞分析、蛋白质组学、结构生物学、化学信息学等领域预先配置好的技能和连接器。

过去几个月,已有科研人员在公测阶段用它做单细胞RNA测序分析、CRISPR筛选设计、蛋白质结构预测、化学信息学分析等工作。Allen Institute的神经科学家Jérôme Lecoq用它搭建了多Agent计算综述写作模板,已经完成约10篇超过100页的综述;UCSF脑肿瘤中心的Stephen Francis团队则用它将胶质瘤分子流行病学研究的分析速度提升至原来的十倍。

此外,Claude桌面版现在也支持Linux了(Ubuntu和Debian)。

七、社区反馈:平淡中藏着争议

与Anthropic的高调宣传形成反差的是,社区对Sonnet 5的反馈相对平淡。不少用户认为Sonnet 5只是未来更强版本的预训练底座,当前5.0版本没有非用不可的必要性,可暂时忽略。

争议焦点主要集中在以下几点:

正面声音:有网友称”有趣的不是它与Opus的算法接近,而是算法接近但token的价格却便宜60%”;有人赞赏”终于有一个能自我检查的模型了,它让我们免于在长时间运行的循环中时刻关注每一个输出结果”。

负面声音:一位网友直言”你自己也承认,这比你目前排名第二的型号要弱。订阅用户想要的是性能更强的模型,而不是价格便宜几分钱却只会给出虚假答案的玩具”;有人吐槽”促销价过后,它的价格和Opus差不多”。

还有用户批评Sonnet 5上下文承载不足,”继承了Opus 4.8不佳的表达风格却没有对应推理能力,没有带来前代产品那样的代际跃迁感”。

八、竞争格局:从旗舰之战到性价比之争

Sonnet 5的发布反映了AI行业竞争格局的深刻变化。近期OpenAI推出GPT-5.6预览版,谷歌持续强化Gemini智能体能力,头部公司的竞争重点已从模型排行榜逐渐转向智能体生态。Anthropic将竞争重点从旗舰模型转向更具性价比的主力产品,反映AI大模型竞争正加速向企业智能体落地和成本效率转移。

值得注意的时间节点是:Sonnet 5发布处于Anthropic筹备IPO的关键阶段。该公司已于2026年6月初向SEC秘密提交IPO招股说明书,5月下旬完成650亿美元H轮融资,投后估值9650亿美元,年化营收超过470亿美元。在发布前一天,加州州长宣布以50%折扣向所有州政府机构提供Claude服务——这种政府合同通常代表着持久的、经常性收入来源。

与开源模型的成本对比更值得玩味。GLM-5.2在OpenRouter等第三方API平台定价为每百万token输入1.40美元、输出4.40美元,完成同样任务只要0.48美元。有网友认为Sonnet 5就是面向智谱GLM-5.2展开价格战,但从实际单任务成本看,差距仍然明显。

九、适用场景建议

综合来看,Sonnet 5的定位清晰:让agentic能力从必须上贵模型变成中端模型即可。具体建议如下:

  • 对成本敏感、又需要稳定执行多步任务的团队:Sonnet 5大概率会成为新的默认选项。
  • 真正吃准确率的高难任务:Opus 4.8仍是首选。
  • 重推理任务(Humanity’s Last Exam、GPQA Diamond等):Sonnet 5与Opus 4.8和Fable 5仍有差距,更适合Agent和编程场景,不能完全替代顶级推理模型。
  • 网络安全工作:若需要较少防护限制,Anthropic推荐使用Opus 4.8。
  • 运行高容量工作负载的企业客户:需对自己特定用例做基准测试,不能直接假定账单不变。

结语

Sonnet 5的发布,本质上是Anthropic在Agent时代的一次卡位战——通过把旗舰能力下放到中端价格带,抢占企业智能体落地的主力位置。但新tokenizer带来的token消耗增加、与开源模型的成本差距、以及旗舰模型在网络攻击与重推理任务上的不可替代性,都让这场”性价比”叙事多了几分复杂性。Fable 5和Mythos 5即将解禁,真正的旗舰之争还在后面。


文章来源:综合自Anthropic官方公告、机器之心、腾讯新闻、IT之家、36氪、虎嗅、搜狐科技等媒体报道,由大国AI导航(daguoai.com)整理。

© 版权声明

相关文章

暂无评论

none
暂无评论...