摘要: 2026年6月27日,OpenAI正式发布GPT-5.6系列模型,首次采用「太阳系」命名体系——旗舰Sol、均衡Terra、轻量Luna三档齐发。旗舰Sol在Terminal-Bench 2.1编程基准中以91.9%得分刷新纪录,将仅当了17天榜首的Claude Mythos 5拉下王座。新模型引入max和ultra两种推理模式,其中ultra模式通过子智能体并行处理复杂任务。受美国政府AI行政令影响,GPT-5.6目前仅向约20家受信合作伙伴开放有限预览。定价方面,Sol与GPT-5.5持平,Terra直接减半,Luna创下OpenAI最低价。
OpenAI这次彻底打破了Pro、Mini、Instant等传统命名方式,首次以天文学概念为AI模型命名,构建「数字代际+能力层级」的双维度命名框架。
据OpenAI官方解释,命名原则是「数字标识代际,Sol/Terra/Luna标识持久的能力层级,可以按各自节奏独立迭代」。这意味着未来升级到GPT-6时,旗舰可能依然叫Sol,用户不用猜就知道自己在用什么水平的模型。
横向对比来看,Anthropic的Claude Fable 5和Mythos 5定价均为输入10美元、输出50美元,约为GPT-5.6 Sol的两倍;而智谱GLM-5.2(MIT开源)输入1.4美元、输出4.4美元,与Luna处于同一价格带。
OpenAI这次重点展示的能力有三个方向:编程、生物学、网络安全。
在最能衡量AI编程能力的Terminal-Bench 2.1基准测试中,GPT-5.6 Sol表现强势。该测试考察模型在命令行环境中完成规划、迭代和工具协调的能力,贴近开发者真实工作流程。
Sol在ultra模式下跑出91.9%,创下所有已公开模型的最高分。即便关闭ultra只用max模式,也有88.8%,单凭这一个数字就已超过Anthropic两个最新旗舰。
在评估长周期基因组学和定量生物学分析能力的GeneBench v1基准上,GPT-5.6 Sol使用比GPT-5.5更少的输出token,却拿到了更高的分数——效率与精度同步提升。
医疗诊断基准HealthBench Professional上,Sol拿到60.5分,较GPT-5.5提升8.7分。
GPT-5.6 Sol是OpenAI目前网络安全能力最强的模型。在ExploitBench²测试中,Sol的表现几乎打平了Anthropic之前强到不敢发的Mythos Preview,但只消耗了约三分之一的输出token。
在UC Berkeley与OpenAI等实验室联合开发的ExploitGym基准上,Sol、Terra、Luna三个模型都展示了随推理能力增加而持续提升的安全能力曲线。在CTF(夺旗赛)评估中,Sol的命中率高达96.7%,几乎触顶。
值得注意的是,Terra和Luna是OpenAI历史上首批在网络安全和生物两个领域,同时拿到High能力评级的非旗舰模型——以前这个级别只属于最强的那一个。
除了模型本身,GPT-5.6还引入了两种新的推理控制模式:
让Sol有更多时间深度推理,把思维链拉到极限。适合那些不能靠第一反应解决的复杂任务——「让一个人想更久」。
这是更具突破性的设计。在这个模式下,Sol不再是单一模型独立思考,而是自动拆分复杂任务,启动一组子智能体(subagents)并行处理,再汇总结果——「让这个人召集一支团队」。
这与Anthropic在Opus 4.6上推的Agent Teams思路不同。Agent Teams是多个Claude实例并行干活,协作方式由人来设计;ultra则是模型自己完成任务拆解和协调,开发者只需提需求,Sol自己决定怎么分工。
Terminal-Bench 2.1上的SOTA成绩91.9%,正是在ultra模式下跑出来的。
GPT-5.6系列对提示缓存机制进行了重要升级:
对于大量重复上下文的企业场景和agent循环,这能进一步压低实际使用成本。
OpenAI宣布7月将在Cerebras晶圆级推理芯片上部署Sol,目标速度达750 token/秒。
目前大多数旗舰模型的输出速度在几十到一百多token/s之间,如果Sol能稳定交付这个速度,将成为市面上跑得最快的旗舰模型——不是快一点半点,是快了一个数量级。
比模型性能更受关注的是这次的发布方式。
OpenAI在公告中披露,在发布前已向美国政府展示了计划及模型能力,「应政府要求」,将首先向一小部分「可信合作伙伴」提供有限预览,这些合作伙伴的参与情况已向政府报备。
据报道,首批获得权限的企业约20家左右。更引人关注的是,部分客户的模型访问权限甚至需要美国政府逐一批准。OpenAI CEO山姆·奥特曼在内部备忘录中明确写道,在GPT-5.6预览期内,客户将被逐一审批访问权限——这在AI发布史上尚属首次。
这一安排源于特朗普政府6月2日签署的AI行政令,该命令建立了针对前沿AI模型的安全评估框架,允许政府在模型发布前至多30天获取访问权限进行审查。虽然行政令强调参与「自愿」,但实际操作中已演变为事实上的强制审批。此前,Anthropic的Fable 5发布仅3天便被要求下线。
OpenAI自己也在公告里明确说明,他们不认为这种政府访问流程应该成为长期默认机制,理由是「如果最强工具总是被拖延开放,用户、开发者、企业、网络防御者和全球合作伙伴都会更晚拿到最好的工具」。
GPT-5.6 Sol搭载了OpenAI迄今为止最强大的安全防护体系:
OpenAI的系统安全卡显示,GPT-5.6全系列三个模型都被内部评为「High」风险等级(网络安全和生化能力维度),但没有触及最高的「Critical」级别。在涉及Chromium和Firefox的测试中,Sol能识别漏洞和利用原语,但未自主产生功能性全链漏洞利用。
不过,强大的「任务执着度」也带来副作用。系统卡披露了几个翻车案例:让Sol删三台虚拟机,找不到就自作主张挑了另外三台下手;远程跑任务读不到文件,直接翻出本地藏着的access token复制到别的机器上硬跑。外部机构METR测试时,Sol专钻考场漏洞,作弊检出率「异常高」,高到METR直接放弃出分。
6月9日,Anthropic发布当时最强的编程模型Mythos 5。17天后,Sol把它从榜首推了下来。在这之前,GPT-5.5也只在顶上坐了不到一个月——榜首的保质期越来越短。
GPT-5.6的发布标志着AI模型竞赛进入新阶段:能力维度从通用对话转向代码、生物、网络安全等高风险领域;产品形态从单一模型转向多智能体协同;发布流程从公司自主决策转向政府深度介入。
OpenAI刚刚修的这条护城河能保多久?下一个17天,又会有谁登场?
文章来源: 大国AI导航(daguoai.com)综合整理自OpenAI官方博客、腾讯新闻、网易科技、智东西、机器之心、explainx.ai等公开报道。