Claude Opus 4.5震撼发布:编程能力超越人类工程师,AI进入新纪元

Ai教程6天前发布 大国Ai
99 0 0

全球编码王座易主,Anthropic用实力重新定义AI编程的极限。

2025年11月25日,人工智能领域迎来重大突破。美国AI独角兽Anthropic正式发布Claude Opus 4.5,该模型在软件工程任务上展现出卓越性能,甚至在内部编程测试中超越了所有人类求职者的表现。

此次发布不仅巩固了Anthropic在AI编程领域的领先地位,更为开发者社区带来了性能与价格的双重惊喜。Opus 4.5在多项基准测试中全面碾压竞争对手,标志着AI编程能力迈上新台阶。

Claude Opus 4.5震撼发布:编程能力超越人类工程师,AI进入新纪元

01 性能突破,Opus 4.5重新定义编程AI标准

在最具权威性的软件工程基准测试SWE-bench Verified中,Claude Opus 4.5取得了80.9%的准确率,显著领先于Gemini 3 Pro(76.2%)和GPT-5.1-Codex-Max(77.9%)。这一测试评估的是模型在真实世界软件维护任务中的表现,直接关系到实际开发效率。

更令人瞩目的是,Opus 4.5在Anthropic内部一项高难度工程评估中创下了新纪录。该测试本是公司为性能工程师岗位设计的限时编程测试,要求求职者在两小时内完成。而Claude Opus 4.5的得分超越了所有曾参与该测试的人类工程师

测试人员普遍反馈,新模型在各种任务中展现出更强的判断力与直觉。“这个模型好像突然‘开窍’了,”开发者关系负责人阿尔伯特表示,“它在处理许多现实问题时表现出的直觉和判断力,让人感觉相比前代模型实现了一次质的跨越。”

02 多维度能力提升,智能体表现令人惊艳

Claude Opus 4.5的提升不仅限于编程领域。在考察智能体多轮任务执行能力的τ2-bench基准测试中,Opus 4.5展现出了惊人的创造性解决问题的能力

在一个测试场景中,模型需要扮演航空公司客服代理,帮助一位客户修改“基本经济舱”机票——按照航空公司规定,此类机票不可更改。大多数模型会直接拒绝请求,但Opus 4.5找到了一个极具洞察力且合规的解决方案:先升级舱位,再修改航班。

这种创新性问题解决能力显示了AI在理解复杂规则和寻找合规路径方面的显著进步。尽管基准测试因模型未按预期拒绝请求而判定此结果为“失败”,但这种创造性的解决问题能力正是实际应用中所需要的。

多语言编码能力方面,Opus 4.5在SWE-bench Multilingual测试的8种编程语言中,有7种处于领先地位。在Aider Polyglot测试中,它比Sonnet 4.5提升了10.6%,能够轻松解决具有挑战性的编码问题。

03 效率革命:更优性能,更低成本

与常规认知相反,Opus 4.5在提升性能的同时实现了效率的大幅优化。Anthropic引入了全新的“投入”参数,用户可通过此参数动态调节模型处理每个任务时所投入的计算工作量。

在“中等”投入级别下,Opus 4.5可在SWE-bench Verified测试中达到与Sonnet 4.5相同的最高分,而输出token消耗量却大幅降低了76%。即使在“高”投入级别追求极限性能时,其表现比Sonnet 4.5再提升4.3个百分点,token使用量仍减少了近一半(48%)。

GitHub首席产品官马里奥·罗德里格斯证实:“早期测试表明,Opus 4.5在token消耗减半的同时,性能仍超越了我们的内部编码基准,尤其在代码迁移与重构等复杂任务上表现尤为出色。”

价格方面,Anthropic大幅下调了Opus 4.5的定价:输入token降至每百万5美元,输出token为每百万25美元,较前代产品Claude Opus 4.1下降约三分之二。这一降价使得尖端AI技术对广大开发者和企业更加触手可及。

04 生态系统全面升级,突破上下文限制

伴随核心模型的发布,Anthropic还推出了一系列产品更新。Claude Code获得了两项重要升级:“计划模式”现在能构建更精确的计划并执行得更彻底,桌面端App支持并行运行多个本地或远程会话。

最引人注目的是“无限聊天”功能的实现。通过智能总结长对话中的早期内容,Claude有效突破了传统上下文窗口的限制。阿尔伯特解释道:“在Claude AI产品中,凭借我们创新的内容压缩与内存管理技术,用户实际上获得了近乎无限的对话效果。”

Claude for Excel功能现已向Max、Team及Enterprise用户全面开放,新增了对数据透视表、可视化图表及文件上传的完整支持。同时,Chrome浏览器扩展也已向所有Max用户开放使用。

05 安全性与对齐性达到新高度

Anthropic强调,Claude Opus 4.5是该公司“迄今为止最稳健、最对齐的模型”,也是目前所有AI模型中对齐程度最高的基准模型。

在抵御“提示词注入”攻击方面,Opus 4.5取得了实质性进展。这种攻击通过恶意输入诱导模型执行危险操作,是AI安全领域的重要挑战。测试显示,Opus 4.5比业内任何其他前沿模型都更难被提示词注入所欺骗。

Anthropic还减少了模型的不良行为,如谄媚应答、欺骗性输出等。与早期模型版本相比,当前误报率已显著降低,正常请求拒绝率从Sonnet 4时的0.15%下降到了0.02%。


Claude Opus 4.5的发布标志着AI编程能力的一个分水岭。它不仅在技术指标上超越了人类工程师的表现,更通过价格的大幅下调使得尖端技术更加普惠。

随着AI在专业技术任务上逼近甚至超越人类水平,其对各行业工作模式的颠覆已从理论探讨变为现实挑战。Anthropic研究员Adam Wolff甚至豪言:“也就在明年上半年,软件工程彻底终结了。”

这场竞赛正转化为持续提升的性能与不断下降的成本,最终受益的将是整个开发者生态和广泛的技术应用领域。

文章来源:大国Ai导航(daguoai.com)综合多家权威媒体报道

© 版权声明

相关文章

暂无评论

none
暂无评论...