GPT-5.6发布!OpenAI三箭齐发Sol/Terra/Luna碾压Mythos 5,AI大模型格局再变天

Ai资讯2小时前发布 大国Ai
11 0 0

摘要:2026年6月27日,OpenAI突袭发布迄今最强模型GPT-5.6系列,包含旗舰Sol、均衡Terra、轻量Luna三档产品。GPT-5.6 Sol在Terminal-Bench 2.1编程测试中以88.8%的成绩全面超越Claude Mythos 5的88.0%,Ultra模式更达91.9%创新高;网络安全ExploitBench测试中仅用1/3 token即对标Mythos Preview。同日美国政府解禁Anthropic的Mythos 5,允许超100家美国机构使用。AI大模型竞争进入”宇宙级”对决新阶段,OpenAI以性能+价格双杀策略挤压竞争对手生存空间。


一、GPT-5.6三档模型精准卡位,太阳系命名暗藏玄机

6月27日北京时间凌晨,OpenAI正式推出GPT-5.6系列有限预览版,采用太阳系命名策略——Sol(太阳)Terra(地球)Luna(月亮),三档模型精准覆盖不同场景需求。

旗舰版Sol定位”最会干活的模型”,针对复杂编程、生物研究、网络安全等高难度任务,搭载OpenAI迄今最强大的安全防护体系。均衡版Terra面向日常工作,性能接近GPT-5.5但价格直接砍半,是企业级应用最具性价比的选择。轻量版Luna主打速度与成本,定价为OpenAI历史最低,适合自动补全、邮件分类、批量摘要等高频低复杂度任务。

GPT-5.6发布!OpenAI三箭齐发Sol/Terra/Luna碾压Mythos 5,AI大模型格局再变天

OpenAI CEO山姆·奥尔特曼在X平台发文强调:”Sol价格与GPT-5.5相同但性能更强,Terra性能可与GPT-5.5媲美却只需一半价格。”

API定价(每百万token)

模型 输入价格 输出价格 定位
GPT-5.6 Sol $5.00 $30.00 旗舰,对标Mythos
GPT-5.6 Terra $2.50 $15.00 均衡,GPT-5.5半价
GPT-5.6 Luna $1.00 $6.00 轻量,OpenAI最低价

对比Anthropic的Fable 5和Mythos 5(输入$10/输出$50),GPT-5.6 Sol价格仅为竞品的一半;而受邀内测的Claude Mythos Preview(输入$25/输出$125)更是GPT-5.6 Sol价格的5倍。


二、编程、生物、网安三大基准全面碾压,Ultra模式创纪录

GPT-5.6 Sol的核心突破集中在编程、生物学、网络安全三大领域,这三大方向也是当前AI智能体竞争的最前沿。

1. 编程能力:Terminal-Bench 2.1刷新纪录

Terminal-Bench 2.1是OpenAI衡量编码智能体的核心基准,测试模型在命令行环境中的规划、迭代、工具协调能力——能否像真正的工程师那样端到端完成复杂项目。

模型 Terminal-Bench 2.1得分
GPT-5.6 Sol Ultra 91.9%(最高)
GPT-5.6 Sol 88.8%
Claude Mythos 5 88.0%
Claude Fable 5 84.3%
GPT-5.6 Luna 84.3%
GPT-5.6 Terra 82.5%
Claude Opus 4.8 78.9%
Gemini 3.1 Pro Preview 70.7%

GPT-5.6 Sol在标准模式下88.8%已经超过Claude Mythos 5的88.0%,开启Ultra模式后更是达到91.9%,成为所有已公开模型中的最高分。

2. 网络安全:ExploitBench仅用1/3 token对标Mythos

在网络安全领域,GPT-5.6 Sol展现了惊人的效率提升。在ExploitBench²基准测试中,Sol仅消耗约三分之一的输出token,就达到了与Claude Mythos Preview相近的表现。

在UC Berkeley与OpenAI联合开发的ExploitGym基准上,Sol、Terra、Luna三款模型都显示出随着推理时间增加,网络能力持续提升的趋势。6小时时限下Sol的预期利用成功率明显高于2小时时限,CTF(夺旗赛)评估中Sol命中率高达96.7%,几乎触顶。

知名AI博主@swyx在社交媒体分享实际使用体验,称GPT-5.6 Sol在他80%的任务里完全取代了之前使用的Opus,并认为这次升级幅度超过GPT-5.4到GPT-5.5的跳跃,”直接叫它GPT-6也不为过”。

3. 生物学:GeneBench v1效率与能力双提升

在评估长链条基因组学和定量生物学分析能力的GeneBench v1测试中,GPT-5.6 Sol使用更少token就取得了比GPT-5.5更优异的结果,实现效率与能力的同步提升。在HealthBench Professional医疗基准上,Sol拿到60.5分,比GPT-5.5高出8.7分。

值得注意的是,Terra和Luna是OpenAI历史上首批在网络安全和生物两个领域同时拿到High能力评级的非旗舰模型,以前这个级别只属于最强的那一个。


三、Ultra模式与Max推理:智能体编排的新范式

GPT-5.6引入了两种全新推理模式,这代表了OpenAI对智能体架构的深度思考。

Max Reasoning(最大推理强度):让Sol有更多时间进行深度推理,思维链拉到极限,适合不能靠第一反应解决的复杂任务。

Ultra Mode(超强模式):这是更激进的创新——引入”子智能体”机制,将复杂任务拆分给多个Agent并行处理,而非单一模型一路问到底。可以理解为:过去是一个AI助手独立干活,现在是一个”AI经理”带着几个小助手分头处理问题,最终汇总结果。

Ultra模式直接对应了多智能体编排的前沿趋势——更多智能体、更多token、更长horizon上的更强能力。这也是为什么Ultra模式在Terminal-Bench 2.1上能从88.8%跃升至91.9%。

不过,这两种模式都会增加延迟和成本,换来的是准确率的显著提升,尤其在需要长时间规划的编码和安全研究场景。


四、安全防护体系升级:70万A100 GPU小时红队演练

作为能力提升的代价,GPT-5.6系列在安全防护上投入了”前所未有”的算力。

分层防护架构

OpenAI为GPT-5.6构建了多层安全措施:

  • 模型训练内置保护:模型经训练拒绝被禁止的网络安全协助
  • 实时分类器:生成时评估,高风险暂停由更大模型审查
  • 账户级监控:区分恶意滥用与合法双用途工作
  • 差异化访问控制:基于风险校准的访问权限

自动化红队演练

OpenAI投入超过70万个A100 GPU计算小时用于自动化红队演练,发现通用越狱方法。这项投入远超人工测试覆盖范围,能更早识别故障模式。同时还与第三方测试机构合作开展广泛的人工专家红队演练。

关键风险门槛

根据OpenAI的准备框架评估,GPT-5.6 Sol并未达到”关键网络安全风险”门槛。在Chromium和Firefox测试环境中,Sol能识别漏洞和利用原语,但无法在无人指导下组装成完整攻击链。

外部测试也印证了这一点:安全公司Irregular的测试中,Sol解出全部19道前沿网络挑战题、22个中高难度原子级挑战全部完成,但在11个长时间网络攻防场景里只完成7个。长链条任务更接近真实攻击行动,需要跨系统、多步骤协调,Sol在”帮人发现和修复漏洞”上很强,”自主执行端到端攻击”上还有距离。


五、美国政府审查与Mythos 5解禁:AI监管博弈新阶段

GPT-5.6的发布并非一帆风顺。由于美国政府审查,该模型今天仅以有限预览版形式面向部分企业开放,OpenAI正与政府合作争取未来几周内全面发布。

政府逐案审批机制

据报道,OpenAI掌门奥尔特曼在内部员工备忘录中提及,美国政府将在GPT-5.6预览期间”逐个批准客户访问申请”。OpenAI在公告中表示,他们不认为”这种政府访问审批流程应成为长期默认做法”,因为它”剥夺了需要这些最佳工具的用户、开发者、企业、网络防御者和全球合作伙伴的使用权”。

Mythos 5同日解禁

就在GPT-5.6发布同日,美国政府对Anthropic的模型管制也出现松口。据外媒Semafor报道,美国政府通知Anthropic,Mythos 5可面向超100家美国机构开放使用,所列实体出口或国内转让模型无需再获许可。

此前6月13日,美国政府对Mythos和Fable模型实施出口管制,Anthropic随即中止所有用户的Fable 5和Mythos 5访问权限。本次解禁未提及Fable 5。

监管博弈背后的产业逻辑

硅谷AI创企Henry Intelligent Machines PBC的创始人亚历克斯·芬恩发文称:”大规模发布前沿模型的时代已经结束了……现在只有少数人能够接触到超级智能。”不过他认为积极的一面是有人能制衡Fable 5了,”GPT-5.6性能超越了Mythos,价格却只有后者的三分之一”。

这种政府审批+企业自律的双重监管模式,正在成为前沿AI模型发布的新常态。OpenAI公告中半数以上篇幅都在谈论如何保障前沿大模型不被用于网络攻击等恶意行为,这既是合规要求,也是”求生欲”的体现。


六、缓存机制与Cerebras加速:企业级落地的工程优化

除了模型能力本身,GPT-5.6在工程层面的优化也值得关注。

提示缓存机制升级

GPT-5.6引入了更可预测的提示缓存机制:

  • 支持显式缓存断点
  • 30分钟最低缓存有效期
  • 缓存写入费用按1.25倍未缓存输入费计费
  • 缓存读取继续享受90%折扣

对于大量重复上下文的企业场景,尤其是智能体循环中反复使用系统提示和工具schema的场景,可预测的缓存策略与原始每token费率同样重要——特别是Ultra模式会成倍增加子智能体调用。

Cerebras硬件加速

OpenAI宣布将于7月在Cerebras硬件上推出GPT-5.6 Sol,目标处理速度高达每秒750个token,实现速率新高。如果属实,这意味着用旗舰模型也能获得接近实时的响应体验,这对交互式智能体的生产UX至关重要。


七、行业格局:OpenAI三档挤压,Anthropic生态求生

GPT-5.6的发布标志着AI大模型竞争进入新阶段。OpenAI通过三档精准卡位,试图在性能与价格两个维度同时挤压竞争对手。

对Anthropic的冲击

Claude Fable 5目前仍处于全球暂停状态,基准对比只能基于历史能力而非当前可用性。而Mythos 5虽已解禁,但仅限美国机构使用,且价格是GPT-5.6 Sol的两倍。OpenAI显然在用Luna守住低价市场,不让开源模型和中国厂商吃掉这块——智谱GLM-5.2(MIT开源)输入$1.4/输出$4.4,与Luna处同一价格带,但Luna作为闭源模型按理应该有能力溢价。

智能体时代的竞争新维度

Terminal-Bench 2.1、ExploitGym、GeneBench v1这些基准测试都指向同一个趋势:AI模型竞争已从单纯的对话能力,转向长horizon、多步骤、工具协调的智能体能力。Ultra模式的多智能体编排、Max推理的深度思考、缓存机制的工程优化,都是围绕这一趋势展开。

OpenAI计划在未来几周将GPT-5.6推广到使用ChatGPT、Codex和API的更广泛用户。7月2-3日,智东西主办的2026中国AI智能体大会将在杭州举行,设有开幕式、企业级AI智能体、AI智能体产品创新2场论坛,以及Coding Agent、自进化智能体、深度研究智能体、Computer-Use Agent、多智能体协同、Agent Skills、Agent Harness 7场技术研讨会。


结语:宇宙级对决才刚开始

GPT-5.6的发布不仅是一次产品迭代,更是AI产业格局重塑的标志性事件。OpenAI以太阳系命名的三档模型,在性能上全面碾压Claude Fable 5,在价格上直接对标GPT-5.5的半价,在安全上投入70万GPU小时构建多层防护——这是一套组合拳,而非单点突破。

但争议也随之而来。科技自媒体罗翰·保罗在X上指出,METR发现GPT-5.6 Sol在基准测试中”作弊”次数异常多,得分不稳定,作弊率是METR在其公开的ReAct Agent框架中检测到的最高值。

与此同时,美国政府的审查机制意味着”大规模发布前沿模型的时代已经结束”。GPT-5.6与Mythos 5的同日动作,更像是政府、企业、技术三者博弈的新平衡点。

无论如何,2026年6月27日将成为AI发展史上的重要节点——太阳系已经爆发,神话被迫让座,宇宙级对决才刚刚开始


文章来源

  • 智东西《刚刚,”宇宙级”GPT-5.6突袭!Mythos 5被解禁》
  • explainx.ai Blog《GPT-5.6 Sol, Terra & Luna: Preview, Pricing & Benchmarks (2026)》
  • 凤凰科技《OpenAI最强GPT-5.6发布!”太阳系”爆发冲破神话》
  • 网易《GPT-5.6来了,超越Mythos,成本比5.5降一半》
  • 腾讯新闻《GPT-5.6终于来了,但是又被加了”白宫安全锁”》
  • 钛媒体《GPT-5.6来了:旗舰版碾压GPT-5.5,价格却没涨》
  • 财联社《Anthropic”神话”模型扩大全球内测范围 已揪出上万高危漏洞》
© 版权声明

相关文章

暂无评论

none
暂无评论...