Claude Opus 4.5重磅发布:编程能力超越人类工程师,成本降至三分之一

Ai资讯6天前发布 大国Ai
80 0 0

每隔半年到一年,就会出现一款真正改变行业格局的模型,而今天发布的Claude Opus 4.5,就是那款模型。

美国人工智能初创企业Anthropic今日正式发布Claude Opus 4.5,这款被称为“全球在编程、智能代理和计算机应用方面表现最佳”的模型,在多项测试中表现优异,甚至超过了优秀的人类工程师

更令人惊喜的是,这款旗舰模型的价格大幅降低至前代产品的三分之一,同时取消了专门的用量限制。这一举措被业界解读为Anthropic加速AI普及的重要战略。


01 多项测试领先,编程能力超越人类

根据Anthropic公布的数据,Claude Opus 4.5在真实世界软件工程测试SWE-bench Verified中成为首款得分超过80%的AI模型,不仅领先于自家的Claude Sonnet 4.5,还超过了谷歌上周发布的Gemini 3 Pro和OpenAI的GPT-5.1 Codex-Max。

最引人注目的是,当Anthropic将公司用于面试人类工程师的高难度居家考试交给Claude Opus 4.5时,在规定的两小时内,该模型的得分高于以往任何人类应聘者。 这表明AI模型在重要技术技能方面已经超越了人类水平。

在考察多种编程语言掌握程度的SWE-bench Multilingual测试中,Claude Opus 4.5在8种编程语言里的7种实现性能领先。 这一结果印证了Anthropic宣称的“全球最佳编程模型”的说法。

Claude Opus 4.5重磅发布:编程能力超越人类工程师,成本降至三分之一

02 实际应用惊艳,单次生成《我的世界》

Claude Opus 4.5的实际应用表现同样令人印象深刻。前端开发者平台Vercel的CEO Guillermo Rauch用该模型打造了一个购物网站,结果一次性生成成功。Rauch感叹,Claude Opus 4.5的水平“完全不同,好得让人难以置信”。

更有用户使用Claude Opus 4.5成功打造了《我的世界》克隆版,生成了3500行代码,且一次就获得了成功。复刻的游戏拥有不同的生物群系、树叶和水的透明方块效果,还有一套完整的物品栏和合成系统。

AI订阅平台Every的联合创始人兼CEO Dan Shipper表示:“每隔半年到一年,就会出现一款真正改变行业格局的模型,而今天发布的Claude Opus 4.5,就是那款模型。”他称这是他用过的最好的编程模型,没有之一

03 价格大幅下降,仅为前代三分之一

在提升性能的同时,Anthropic还大幅降低了Claude Opus 4.5的价格。新模型的定价为每百万tokens 5美元(输入)/25美元(输出),仅为前代Claude Opus 4.1的三分之一

同时,Anthropic还移除了专门针对Opus系列的用量限制。对于已获Claude Opus 4.5使用权限的Claude与Claude Code用户,平台取消了Opus专属限额。面向Max和Team Premium用户,总体使用额度得到提升,这意味着用户现在可使用的Opus token量相当于此前Sonnet的配额。

Claude Opus 4.5现已在Claude应用程序、API中可用,并已在AWS、谷歌云和微软Azure三大主流云平台上线。

04 安全性提升,抵御攻击能力增强

在安全性方面,Claude Opus 4.5也取得了显著进展。Anthropic的内部评估显示,Claude Opus 4.5展现出令人担忧的行为的概率略高于10%,远低于GPT-5.1和Gemini 3 Pro的20%。

该模型在抵御提示词注入攻击方面也表现优异。提示注入攻击会偷偷植入欺骗性指令,诱使模型执行有害行为。Opus 4.5比业内任何其他前沿模型都更难被提示注入攻击欺骗。

此外,Claude Opus 4.5还展现出创造性解决问题的能力。在衡量智能体能力的τ2-bench测试中,当要求模型扮演航空公司客服人员帮助一位遇到困难的乘客时,基准测试题要求模型拒绝修改经济舱机票,因为航空公司不允许更改该舱位的机票。

然而,Claude Opus 4.5找到了一个巧妙且合理的解决方案:先升舱,然后再修改航班。

05 新功能增加,思考强度可控制

随着新模型的发布,Anthropic还推出了多项新功能。通过Claude API新增的“思考强度”参数,开发者可自主选择最小化时间成本或最大化模型能力。

在中等强度设置下,Claude Opus 4.5在SWE-bench Verified测试中达到Sonnet 4.5最佳成绩,同时输出token减少76%。在最高强度下,其性能超越Claude Sonnet 4.5达4.3个百分点,且节省48%的token。

Claude开发者平台在上下文管理与记忆能力方面实现突破,显著提升了智能体任务的表现。Claude Opus 4.5在协调子智能体团队方面尤为出色,支持构建复杂且协作良好的多智能体系统。

测试数据显示,这些技术组合使Claude Opus 4.5在深度研究评估中的性能提升近15个百分点。

产品方面,Claude Code随Claude Opus 4.5获得双重升级:计划模式能制定更精确方案并彻底执行——首先主动询问澄清问题,随后生成用户可编辑的plan.md文件再实施操作。

同时该功能现已登陆桌面应用,支持并行运行本地与远程会话,实现多智能体协同工作。


Claude Opus 4.5的发布标志着AI编程能力达到新高度。Anthropic在短短两个月内连续发布了Sonnet 4.5、Haiku 4.5和现在的Opus 4.5三个重大模型版本,体现了AI行业惊人的发展速度。

随着模型绝对性能的提升和使用成本的降低,软件开发流程正迎来深刻变革。AI正从“代码补全工具”向“端到端开发伙伴”演进,这将重新定义程序员的工作方式与效率标准。

文章来源:大国Ai导航(daguoai.com)综合整理自Anthropic官方公告、智东西、财联社等权威媒体报道。

© 版权声明

相关文章

暂无评论

none
暂无评论...