Anthropic深夜双弹齐发:Claude Sonnet 5性能逼近Opus 4.8,Claude Science重塑AI科研工作流

Ai资讯2小时前发布 大国Ai
27 0 0

Anthropic深夜双弹齐发:Claude Sonnet 5性能逼近Opus 4.8,Claude Science重塑AI科研工作流

摘要:2026年7月1日凌晨,Anthropic一次性放出两个重磅更新——Claude Sonnet 5正式发布,以及面向科研人员的AI工作台Claude Science开启公测。Sonnet 5直接跳过4.7和4.8版本,在Agent能力上实现质的飞跃,多项基准测试成绩已逼近Opus 4.8,价格却低出不少。Claude Science则整合了60多个学科领域的预置技能,试图将科研人员从繁琐的工具切换中解放出来。本文将从模型能力、定价策略、科研应用场景三个维度,深度解读Anthropic这次双弹齐发背后的战略野心。


一、Claude Sonnet 5:Agent能力的”平民化”时刻

1.1 跳版本号背后的信号

这次更新最引人注目的细节,是版本号直接从Sonnet 4.6跳到了5.0,中间跳过了4.7和4.8。在AI模型的迭代节奏里,大版本号跃迁通常意味着架构层面的实质性升级,而非常规优化。

Anthropic深夜双弹齐发:Claude Sonnet 5性能逼近Opus 4.8,Claude Science重塑AI科研工作流

过去,Anthropic的Agent能力领先主要出现在Opus系列身上,Sonnet系列则相对保守。这次Sonnet 5把与Opus 4.8的差距明显缩小,在多项关键能力上已经接近旗舰水平,价格却只有后者的零头。对于开发者社区来说,这意味着原本需要为Opus付费才能获得的Agent体验,现在用Sonnet的成本就能跑通。

1.2 基准测试:全面追赶Opus 4.8

从Anthropic官方公布的测试数据来看,Sonnet 5在六大关键能力上都有实质提升:

测试项 Sonnet 5 Sonnet 4.6 Opus 4.8(参考)
Agentic coding SWE-bench Pro 63.2% 58.1% 69.2%
Agentic coding Terminal-Bench 2.1 80.4% 67.0% 82.7%
Humanity’s Last Exam(无工具) 43.2% 34.6% 49.8%
Humanity’s Last Exam(带工具) 57.4% 46.8% 57.9%
Computer use OSWorld-Verified 81.2% 78.5% 83.4%
Knowledge work GDPval-AA v2 1618 1395 1615

值得重点关注的是Humanity’s Last Exam(带工具)这项多学科推理测试,Sonnet 5的57.4%几乎追平了Opus 4.8的57.9%。而在Knowledge work GDPval-AA v2(知识工作)测试中,Sonnet 5的1618分甚至略微超过了Opus 4.8的1615分。

1.3 Agent能力的真实落地

基准数据之外,更值得关注的是多家早期测试合作伙伴的反馈。据Anthropic透露,Sonnet 5最明显的改进在于任务完成的完整性:在之前Sonnet模型会半途而废的复杂场景下,新模型能够完整跑完整个流程,甚至会主动检查输出结果。

这种”会自己检查”的能力,正是Agent从”工具调用器”向”自主工作者”演进的关键标志。Sonnet 5能够制定计划、调用浏览器和终端等工具,并在更长时间跨度里独立运行——这种能力在几个月前还只有体量更大、价格更贵的模型才具备。

BrowseComp(考察Agent搜索能力)和OSWorld-Verified(考察电脑操作能力)两项测试中,在不同的算力投入水平下,Sonnet 5相比Sonnet 4.6都有稳定提升。Opus 4.8依然是精度天花板,但Sonnet 5用更低的价格提供了相当不错的水准,用户可以在精度和成本之间做灵活权衡。

1.4 定价策略:优惠期与token变化的平衡术

Sonnet 5的定价策略体现了Anthropic在商业化上的精细考量:

优惠期价格(即日起至8月31日):

  • 输入:每百万token 2美元
  • 输出:每百万token 10美元

标准价格(9月1日起恢复):

  • 输入:每百万token 3美元
  • 输出:每百万token 15美元

需要注意的是,Sonnet 5采用了新的分词器,同样的输入内容可能会被切分成更多token,大约是原来的1到1.35倍,具体取决于内容类型。Anthropic表示,优惠价格的设定已经把这个因素考虑进去,整体迁移成本基本持平。

这种”先优惠后涨价”的策略,既给了开发者迁移的窗口期,又通过新分词器的变化保持了实际收入的稳定。从开发者的角度看,8月31日之前的窗口期是性价比最高的尝鲜时机。

1.5 可用性:全套餐覆盖

Sonnet 5从即日起在所有套餐中开放:

  • 免费版和Pro版:默认使用Sonnet 5
  • Max、Team、Enterprise用户:均可使用
  • API调用:模型代号为claude-sonnet-5

此外,Claude桌面版现在也支持Linux了(Ubuntu和Debian),这对Linux开发者社区是个利好。


二、Claude Science:Anthropic的科研野心

如果说Sonnet 5是模型层的常规迭代,那么Claude Science的发布则暴露了Anthropic更深层的战略野心。这款面向科研人员的AI工作台应用,目前处于beta阶段,但其设计思路值得深入拆解。

2.1 科研工作的真实痛点

科研人员日常工作面临的核心痛点,Claude Science的定位文档描述得相当精准:

  • 工具碎片化:需要在PubMed、Jupyter、R、集群终端等几十个工具之间来回切换
  • 数据格式复杂:各种需要专门工具才能打开和处理的文件格式
  • 数据库多样:UniProt、PDB、Ensembl、Reactome、ClinVar、ChEMBL、GEO等,每个都有不同的数据结构和查询语言
  • 流程难复现:分析过程缺乏完整记录,几个月后难以追溯

这些痛点不是简单的”效率问题”,而是直接制约了科研产出的速度和质量。Anthropic选择从这些痛点切入,说明他们对科研场景有深入理解。

2.2 统筹型Agent架构

Claude Science的核心设计是一个统筹型主Agent,背后接入了60多个针对不同学科领域预先配置好的技能和连接器,覆盖范围包括:

  • 基因组学
  • 单细胞分析
  • 蛋白质组学
  • 结构生物学
  • 化学信息学

这个主Agent能够:

  1. 调用其他Agent协同工作
  2. 与用户自建的专用Agent配合
  3. 接入NVIDIA BioNeMo Agent Toolkit的技能
  4. 原生连接BioNeMo生命科学模型库,包括Evo 2、Boltz-2和OpenFold3

特别值得一提的是审核Agent的设计:它会专门检查引用和计算过程,发现错误会标注出来并修正。这种”生成+审核”的双Agent架构,正是科研场景对准确性高要求的直接回应。

2.3 可复现性:科研的命脉

科研工作最核心的要求是可复现性。Claude Science在这方面的设计相当到位:

每次生成图表,Claude Science都会附带:

  • 生成所用的具体代码
  • 运行环境信息
  • 一段大白话描述生成过程的说明
  • 完整的对话记录

即使过了几个月,科研人员也能清楚知道用了哪些输入数据,方便验证和复现。用户可以用大白话要求修改图表,比如”去掉网格线”或”把坐标轴改成对数刻度”,Agent会自己去修改对应的代码。

这种设计解决了一个关键问题:AI辅助科研最大的风险不是效率不够,而是黑箱操作导致结果不可追溯。Claude Science通过完整的记录机制,把”AI辅助”变成了”AI可验证辅助”。

2.4 算力管理:从单GPU到集群

大型分析任务——比如蛋白质结构折叠或海量数据集上的基因组学流程——过去需要科研人员自己花时间搭建计算任务、等待排队、查看状态、取回结果。Claude Science把整套流程接管了过来:

  • 先给出一份计划
  • 在动用新计算资源前征求用户同意
  • 允许用户随时查看或撤销任何决定
  • 任务提交到实验室已有计算资源(SSH连接的HPC集群或Modal账户的按需算力)
  • 分析规模可从单个GPU扩展到上百个

由于Agent在保持上下文记忆的运行会话里工作,即使是体量巨大的数据集也只需要加载一次。更重要的是,它运行在实验室自己的基础设施上,大型或敏感数据集不需要离开原本所在的系统,每一步分析只把必要的上下文发送给Claude——这对数据敏感的科研场景至关重要。

2.5 原生科学内容展示

Claude Science能原生展示多种科学内容形式:

  • 3D蛋白质结构
  • 基因组浏览器轨道
  • 化学结构式

用户可以直接和Agent讨论图表或手稿的具体细节,在图上做批注,Agent会据此理解需要修改的地方,把内容打磨到可发表的水准。

2.6 可用性与定价

Claude Science目前:

  • 面向Pro、Max、Team、Enterprise用户开放公测
  • 支持macOSLinux平台
  • Team和Enterprise用户需要管理员开通
  • 面向学术机构和非营利科研组织的活跃实验室,推出打折版Team套餐

下载地址:https://claude.com/product/claude-science


三、真实案例:从Manifold Bio到Allen Institute

3.1 Manifold Bio:组织靶向药物筛选

设计组织靶向药物的公司Manifold Bio,用Claude Science为最新一批实验筛选靶点。这类药物需要精确找到特定器官或细胞类型,让药效集中在需要的地方,减少对身体其余部位的影响。

团队需要同时观察数百万候选结合分子在数百个靶点上、在活体中的分布情况。针对每一种组织和靶点,Claude Science会评估候选分子的表面表达、转运特性和安全性,并按照Manifold从自身私有数据中总结出来的标准对候选分子排序。

Manifold方面提到,相比一般的代码助手,Claude Science最大的不同在于能够端到端完成整个流程,自己去收集合适的数据,并结合过往项目积累的经验做出判断。

3.2 Allen Institute:两年缩短到数周

Allen Institute的神经科学家Jérôme Lecoq,用Claude Science搭建了一套多Agent的计算综述写作模板,包含大约20个为撰写长篇综述定制的技能:

  • 子Agent负责通读成千上万篇论文
  • 提取核心论点和关键量化结论
  • 存进证据数据库
  • 构建叙事框架,逐节撰写综述
  • 每节交给专门子Agent处理
  • 专门Agent直接从证据数据库生成跨研究的量化对比图表

关键设计是生成方和评审方相互配合:一个Agent生成内容,另一个独立的评审Agent核查内容准确性和引用可靠性。

在用上Claude Science之前,Lecoq团队写这样一篇综述可能要花两年时间。现在他已经完成了大约10篇综述,很多篇都超过100页,引用都经过评审Agent核查。

3.3 UCSF:胶质瘤研究加速十倍

UCSF脑肿瘤中心的副教授兼流行病学家Stephen Francis,用Claude Science支持胶质瘤分子流行病学研究。他所在的实验室在研究数千个小效应种系变异如何共同作用、影响个体患病易感性。

Francis提到,Claude Science大幅加快了分析速度,让团队能用此前大约十分之一的时间完成跨多种方法的全面种系分析。团队对结果做了独立验证,确认它既能快速完成分析,又能保证结果可靠性。


四、深度分析:Anthropic的战略意图

4.1 模型层的”性价比下放”

Sonnet 5的发布策略清晰:把原本属于Opus系列的Agent能力下放到Sonnet系列。这种”性价比下放”有三重意义:

  1. 降低开发者门槛:更多中小团队和个人开发者能负担Agent级能力
  2. 扩大用户基数:免费版和Pro版默认使用Sonnet 5,意味着所有Claude用户都能体验到Agent能力
  3. 为Claude Science铺路:科研场景需要大量Agent调用,成本控制是关键

4.2 应用层的垂直深耕

Claude Science的发布,标志着Anthropic从通用模型提供商向垂直应用服务商的延伸。选择科研场景作为切入点,逻辑非常清晰:

  • 科研是知识密集型工作,正是大模型的优势领域
  • 科研工作者对工具付费意愿强,且预算相对充足
  • 科研场景的可复现性要求高,正好发挥Anthropic在安全和对齐方面的积累
  • 一旦在科研场景建立口碑,容易形成学术圈的病毒式传播

4.3 生态层面的护城河构建

Claude Science接入了60多个学科领域的预置技能和连接器,这种生态一旦建立,迁移成本极高。科研人员把自己的分析流程保存成可复用技能后,会越来越依赖这套体系。

更关键的是审核Agent的设计,它让Claude Science不仅仅是”效率工具”,而是”可信工具”。在科研这个对准确性要求极高的领域,这种定位差异是关键竞争力。


五、行业影响与未来展望

5.1 对竞争对手的压力

Sonnet 5的发布,直接把压力给到了OpenAI和Google:

  • 在Agent能力上,Sonnet 5已经接近旗舰水平,价格却低出不少
  • Claude Science的垂直深耕模式,可能成为其他厂商效仿的对象
  • 科研场景的先发优势一旦建立,后来者很难追赶

5.2 对开发者的机会

对于AI开发者社区,Sonnet 5的发布意味着:

  • Agent应用的成本门槛进一步降低
  • 8月31日之前的优惠期是最佳尝鲜窗口
  • 新分词器带来的token变化需要关注成本核算
  • Linux桌面版支持扩大了开发者覆盖面

5.3 对科研生态的重塑

Claude Science如果成功,可能重塑科研工作流:

  • 综述写作从”两年”变成”数周”
  • 跨数据库查询从”手动切换”变成”自然语言”
  • 算力管理从”排队等待”变成”Agent接管”
  • 可复现性从”难以保证”变成”自动记录”

5.4 AGI路径的隐含信号

Claude Science的发布,某种程度上暴露了Anthropic对AGI路径的理解:如果模型真的接近AGI,那么搞科研就是自然而然的事情。从通用模型到垂直应用,再到科研这种”知识巅峰”场景,这条路径的每一步都在验证模型能力的边界。


结语

Anthropic这次双弹齐发,表面上是两个产品更新,实质上是两条战略路径的同步推进:模型层通过Sonnet 5实现Agent能力的普惠化,应用层通过Claude Science切入科研这个高价值垂直场景。

对于关注AI发展的我们来说,更值得思考的是:当AI开始深度参与知识生产的核心环节,科研工作的组织方式、评价体系、甚至”科学家”这个角色本身,是否都将迎来重构?

这个问题,或许很快就会有答案。


文章来源:AI寒武纪(2026年7月1日),原标题《Anthropic深夜连放两弹:Sonnet 5、全新AI科研App重磅上线》。本文由大国AI导航(daguoai.com)基于原文创作和深度解读,部分内容参考Anthropic官方公告。

参考链接:

  • https://www.anthropic.com/news/claude-sonnet-5
  • https://www.anthropic.com/news/claude-science-ai-workbench
© 版权声明

相关文章

暂无评论

none
暂无评论...