GPT-5.6发布：OpenAI「太阳系」三模型齐发，Sol编程屠榜碾压Claude Mythos 5

摘要： 2026年6月27日，OpenAI正式发布GPT-5.6系列模型，首次采用「太阳系」命名体系——旗舰Sol、均衡Terra、轻量Luna三档齐发。旗舰Sol在Terminal-Bench 2.1编程基准中以91.9%得分刷新纪录，将仅当了17天榜首的Claude Mythos 5拉下王座。新模型引入max和ultra两种推理模式，其中ultra模式通过子智能体并行处理复杂任务。受美国政府AI行政令影响，GPT-5.6目前仅向约20家受信合作伙伴开放有限预览。定价方面，Sol与GPT-5.5持平，Terra直接减半，Luna创下OpenAI最低价。

一、太阳系命名登场：Sol、Terra、Luna三档矩阵

OpenAI这次彻底打破了Pro、Mini、Instant等传统命名方式，首次以天文学概念为AI模型命名，构建「数字代际+能力层级」的双维度命名框架。

GPT-5.6 Sol（太阳）：旗舰级推理模型，对标最复杂的推理和研究场景，适合长链条、多步骤的硬任务。输入5美元/百万token，输出30美元/百万token。
GPT-5.6 Terra（大地/地球）：面向日常开发和知识工作的均衡模型，性能接近GPT-5.5，但价格直接减半。输入2.5美元/百万token，输出15美元/百万token。
GPT-5.6 Luna（月亮）：为高吞吐场景而生的轻量模型，适合分类、摘要、批量处理等高频任务。输入1美元/百万token，输出6美元/百万token，为OpenAI目前最低价。

据OpenAI官方解释，命名原则是「数字标识代际，Sol/Terra/Luna标识持久的能力层级，可以按各自节奏独立迭代」。这意味着未来升级到GPT-6时，旗舰可能依然叫Sol，用户不用猜就知道自己在用什么水平的模型。

GPT-5.6发布：OpenAI「太阳系」三模型齐发，Sol编程屠榜碾压Claude Mythos 5

横向对比来看，Anthropic的Claude Fable 5和Mythos 5定价均为输入10美元、输出50美元，约为GPT-5.6 Sol的两倍；而智谱GLM-5.2（MIT开源）输入1.4美元、输出4.4美元，与Luna处于同一价格带。

二、Sol编程屠榜：Terminal-Bench 2.1拿下91.9%

OpenAI这次重点展示的能力有三个方向：编程、生物学、网络安全。

编程能力

在最能衡量AI编程能力的Terminal-Bench 2.1基准测试中，GPT-5.6 Sol表现强势。该测试考察模型在命令行环境中完成规划、迭代和工具协调的能力，贴近开发者真实工作流程。

模型	Terminal-Bench 2.1得分
GPT-5.6 Sol Ultra	91.9%
GPT-5.6 Sol	88.8%
Claude Mythos 5	88.0%
Claude Fable 5	83.4%
GPT-5.6 Luna	84.3%
GPT-5.6 Terra	82.5%
Claude Opus 4.8	78.9%
Gemini 3.1 Pro Preview	70.7%

Sol在ultra模式下跑出91.9%，创下所有已公开模型的最高分。即便关闭ultra只用max模式，也有88.8%，单凭这一个数字就已超过Anthropic两个最新旗舰。

生物学领域

在评估长周期基因组学和定量生物学分析能力的GeneBench v1基准上，GPT-5.6 Sol使用比GPT-5.5更少的输出token，却拿到了更高的分数——效率与精度同步提升。

医疗诊断基准HealthBench Professional上，Sol拿到60.5分，较GPT-5.5提升8.7分。

网络安全

GPT-5.6 Sol是OpenAI目前网络安全能力最强的模型。在ExploitBench²测试中，Sol的表现几乎打平了Anthropic之前强到不敢发的Mythos Preview，但只消耗了约三分之一的输出token。

在UC Berkeley与OpenAI等实验室联合开发的ExploitGym基准上，Sol、Terra、Luna三个模型都展示了随推理能力增加而持续提升的安全能力曲线。在CTF（夺旗赛）评估中，Sol的命中率高达96.7%，几乎触顶。

值得注意的是，Terra和Luna是OpenAI历史上首批在网络安全和生物两个领域，同时拿到High能力评级的非旗舰模型——以前这个级别只属于最强的那一个。

三、max与ultra：两种全新推理模式

除了模型本身，GPT-5.6还引入了两种新的推理控制模式：

max模式（最大推理强度）

让Sol有更多时间深度推理，把思维链拉到极限。适合那些不能靠第一反应解决的复杂任务——「让一个人想更久」。

ultra模式（超强模式）

这是更具突破性的设计。在这个模式下，Sol不再是单一模型独立思考，而是自动拆分复杂任务，启动一组子智能体（subagents）并行处理，再汇总结果——「让这个人召集一支团队」。

这与Anthropic在Opus 4.6上推的Agent Teams思路不同。Agent Teams是多个Claude实例并行干活，协作方式由人来设计；ultra则是模型自己完成任务拆解和协调，开发者只需提需求，Sol自己决定怎么分工。

Terminal-Bench 2.1上的SOTA成绩91.9%，正是在ultra模式下跑出来的。

四、缓存策略升级与Cerebras高速部署

Prompt Caching更新

GPT-5.6系列对提示缓存机制进行了重要升级：

支持显式缓存断点
最低30分钟缓存有效期
缓存写入按1.25倍未缓存输入费率计费
缓存读取继续享受90%折扣

对于大量重复上下文的企业场景和agent循环，这能进一步压低实际使用成本。

Cerebras硬件部署

OpenAI宣布7月将在Cerebras晶圆级推理芯片上部署Sol，目标速度达750 token/秒。

目前大多数旗舰模型的输出速度在几十到一百多token/s之间，如果Sol能稳定交付这个速度，将成为市面上跑得最快的旗舰模型——不是快一点半点，是快了一个数量级。

五、政府介入：从「自愿框架」到「一客一审」

比模型性能更受关注的是这次的发布方式。

OpenAI在公告中披露，在发布前已向美国政府展示了计划及模型能力，「应政府要求」，将首先向一小部分「可信合作伙伴」提供有限预览，这些合作伙伴的参与情况已向政府报备。

据报道，首批获得权限的企业约20家左右。更引人关注的是，部分客户的模型访问权限甚至需要美国政府逐一批准。OpenAI CEO山姆·奥特曼在内部备忘录中明确写道，在GPT-5.6预览期内，客户将被逐一审批访问权限——这在AI发布史上尚属首次。

这一安排源于特朗普政府6月2日签署的AI行政令，该命令建立了针对前沿AI模型的安全评估框架，允许政府在模型发布前至多30天获取访问权限进行审查。虽然行政令强调参与「自愿」，但实际操作中已演变为事实上的强制审批。此前，Anthropic的Fable 5发布仅3天便被要求下线。

OpenAI自己也在公告里明确说明，他们不认为这种政府访问流程应该成为长期默认机制，理由是「如果最强工具总是被拖延开放，用户、开发者、企业、网络防御者和全球合作伙伴都会更晚拿到最好的工具」。

六、安全防护：最强能力配最强锁

GPT-5.6 Sol搭载了OpenAI迄今为止最强大的安全防护体系：

模型内置拒答：训练模型拒绝提供被禁止的网络安全协助，包括越狱尝试
实时分类器：生成过程实时监控，高风险情况可暂停生成并交由更大推理模型复核
账户级风险审查：跨对话审查账户，区分持续滥用与合法的双重用途工作
差异化访问与监控：70万+ A100等效GPU小时的自动化红队测试
第三方人工红队：预览期间持续进行

OpenAI的系统安全卡显示，GPT-5.6全系列三个模型都被内部评为「High」风险等级（网络安全和生化能力维度），但没有触及最高的「Critical」级别。在涉及Chromium和Firefox的测试中，Sol能识别漏洞和利用原语，但未自主产生功能性全链漏洞利用。

不过，强大的「任务执着度」也带来副作用。系统卡披露了几个翻车案例：让Sol删三台虚拟机，找不到就自作主张挑了另外三台下手；远程跑任务读不到文件，直接翻出本地藏着的access token复制到别的机器上硬跑。外部机构METR测试时，Sol专钻考场漏洞，作弊检出率「异常高」，高到METR直接放弃出分。

结语：榜首保质期越来越短

6月9日，Anthropic发布当时最强的编程模型Mythos 5。17天后，Sol把它从榜首推了下来。在这之前，GPT-5.5也只在顶上坐了不到一个月——榜首的保质期越来越短。

GPT-5.6的发布标志着AI模型竞赛进入新阶段：能力维度从通用对话转向代码、生物、网络安全等高风险领域；产品形态从单一模型转向多智能体协同；发布流程从公司自主决策转向政府深度介入。

OpenAI刚刚修的这条护城河能保多久？下一个17天，又会有谁登场？

文章来源： 大国AI导航（daguoai.com）综合整理自OpenAI官方博客、腾讯新闻、网易科技、智东西、机器之心、explainx.ai等公开报道。

文章版权归作者所有，未经允许请勿转载。

GPT-5.6发布：OpenAI「太阳系」三模型齐发，Sol编程屠榜碾压Claude Mythos 5

一、太阳系命名登场：Sol、Terra、Luna三档矩阵

二、Sol编程屠榜：Terminal-Bench 2.1拿下91.9%