Claude Opus 4.6 正式发布:全面霸榜的AI模型,价格不变,能力飞跃

Ai资讯19小时前发布 大国Ai
23 0 0

摘要:2026年2月6日,Anthropic正式发布了其旗舰模型Claude Opus的重大升级版本——Opus 4.6。此次升级并非用户期待的Sonnet 5,而是对现有最强模型的一次“全面进化”。Opus 4.6在多项关键基准测试中成绩领先,首次支持100万token的上下文窗口(Beta测试),并显著提升了代码生成、长任务处理及自我纠错能力。最引人注目的是,其API调用价格维持不变,实现了“加量不加价”。

Claude Opus 4.6 正式发布:全面霸榜的AI模型,价格不变,能力飞跃

一、核心升级与性能霸榜

Claude Opus 4.6的发布,标志着大模型在“实用化”和“智能化”道路上迈出了坚实一步。它不仅是一次常规迭代,更在多个维度实现了对前代模型及主要竞品的超越。

关键性能数据一览

  • 代码能力:在终端编码基准测试Terminal-Bench 2.0上,以65.4%的得分超越GPT-5.2(64.7%)和自家前代Opus 4.5(59.8%)。
  • 复杂推理:在带工具的多学科推理测试“Humanity‘s Last Exam”中,获得53.1%的最高分。
  • 知识工作价值:在衡量经济价值的GDPval-AA评测(涵盖金融、法律等领域)中,获得1606 Elo分,比GPT-5.2高出约144分,这意味着其在相关任务中约有70%的概率胜出。
  • 长上下文理解:针对困扰许多模型的“上下文腐烂”问题,Opus 4.6在100万token的“大海捞针”测试中取得了76%的匹配率,远超Sonnet 4.5的18.5%,堪称质变。

此次升级坚持了内容为王的原则,并非单纯堆砌参数,而是聚焦于解决实际应用中的痛点,如长对话遗忘、复杂任务分解等,使模型输出更“结实”和“具体”。

二、能力飞跃与安全增强

Opus 4.6的能力提升是全方位的,尤其在需要规划、工具调用和多步骤执行的“智能体”工作流上表现抢眼。

主要能力突破点

  1. 自我检查与错误诊断:模型学会了在任务执行过程中进行自我检查,软件故障诊断准确率提升至34.9%(Opus 4.5为26.9%)。
  2. 搜索与信息整合:在BrowseComp搜索能力评测中,以84.0%的得分领先,结合多智能体框架后可达86.8%。
  3. 解决新颖问题:在ARC AGI 2测试中得分68.8%,几乎是前代37.6%的两倍,展现了强大的新问题解决能力。

在追求强大能力的同时,Anthropic对模型安全性的把控并未松懈。官方表示对Opus 4.6进行了有史以来最全面的安全评估,包括用户福祉、复杂对抗性测试及隐蔽行为检测。其整体安全对齐水平与已属行业标杆的Opus 4.5持平,并在“过度拒绝”问题上处理得更好,减少了误拒合理请求的情况。同时,因其网络安全能力提升,Anthropic还专门开发了6个新的网络安全探测器来防范潜在滥用。

三、全新功能与生态集成

除了模型本身的能力升级,此次发布还带来了一系列重塑工作流程的新功能和深度集成。

Claude Code的“团队作战”

  • 智能体团队:新功能允许用户同时启动多个智能体,让它们自主协调、并行工作。这对于大型代码库审查等可拆分子任务的项目极为高效。
  • 开发者API新能力
    • 自适应思考:模型可自行判断何时需要深度推理,无需开发者手动切换。
    • 努力级别控制:提供低、中、高、最大四档选项,让开发者根据任务复杂度精细控制计算资源。
    • 上下文压缩:在对话接近token上限时,自动总结并替换旧上下文,使长任务得以不间断运行。

无缝融入办公套件

  • Claude in Excel:能力大幅增强,可处理更长、更复杂的任务,支持条件格式、数据验证,并能自动推断非结构化数据的模式。
  • Claude in PowerPoint:进入研究预览阶段。它能理解演示文稿的布局、字体和母版设置,保持品牌风格一致,无论是基于模板还是从文字描述生成整套幻灯片,实现了从Excel数据处理到PPT演示的流畅工作流。

四、获取方式与使用指南

Claude Opus 4.6现已全面上线,为用户和开发者提供了便捷的接入途径。

如何访问与使用

  • 直接访问:模型已在官网 claude.ai 上线,用户可直接在聊天界面体验。
  • API调用:开发者可通过Claude开发者平台调用,模型名为 claude-opus-4-6。定价保持不变:输入每百万token 25美元,超过20万token的长上下文采用高级定价(37.50美元)。
  • 云平台:在所有主要云平台提供商处可用。
  • Cowork功能:在Claude的Cowork协作环境中,Opus 4.6能整合上述所有能力,自主执行多线程复杂任务。

来自Notion、GitHub、Cursor、Shopify等早期合作伙伴的反馈显示,Opus 4.6在处理复杂、多步骤任务时更像一个“能干的协作者”,而不仅仅是一个工具。它能够理解模糊的意图,主动拆解任务,并坚持执行到底,真正开始解锁那些需要长周期规划和执行的 frontier 任务。


文章来源:本文基于Anthropic官方发布资讯及AGI Hunt于2026年2月6日的报道改写,旨在为大国Ai导航用户提供清晰、实用的产品信息概览。

© 版权声明

相关文章

暂无评论

none
暂无评论...