2026年6月27日凌晨,OpenAI正式发布迄今为止最强的大模型系列——GPT-5.6,包含旗舰版Sol、均衡版Terra、轻量版Luna三款模型。在Terminal-Bench 2.1编程测试中,Sol Ultra模式以91.9%的得分刷新SOTA,超越Claude Mythos 5的84.3%和GPT-5.5的88.0%。不过由于美国政府介入审查,GPT-5.6目前仅以”有限预览”形式向约20家可信合作伙伴开放,普通用户暂时无法使用。本文将从命名体系、性能表现、安全护栏、定价策略、获取方式等维度,深度解读这场”史上最强却最受限”的AI模型发布。
以往OpenAI的命名堪称灾难——5、5.1、5-pro、5-mini、o1、o3混杂在一起,普通用户根本分不清谁强谁弱。GPT-5.6系列首次采用天文命名法,逻辑变得异常清爽:数字代表代际(类似iPhone 16/17),Sol(太阳)、Terra(地球)、Luna(月亮)代表三个能力档位,且这些名字会长期存在,各自按节奏进化。
三档定位清晰分层:
这种”代际+档位”的双层命名体系,让用户能直观判断模型能力层级,终于不用再背诵一长串型号——预算紧选Luna,要性能拉满选Sol,日常干Terra。
Terminal-Bench 2.1是OpenAI用于测试命令行工作流的基准,要求模型具备规划、迭代和工具协调能力。GPT-5.6 Sol在该测试中表现如下:
Sol标准模式88.8%已超越Claude Mythos 5的88.0%,开启Ultra模式后更是达到91.9%的新SOTA。代码质量方面,结构化代码错误率较前代降低37%,代码复用率提升22%。
GPT-5.6的上下文窗口从GPT-5.5的105万tokens扩展至150万tokens,提升近43%。实测输入达90万tokens时模型仍流畅响应,甚至能完美处理超过105万tokens的请求,使模型可一次性解读整个代码库、长篇专业文献或整套行业合同。
在基因组学和定量生物学分析的GeneBench v1测试中,Sol和Terra都比GPT-5.5的准确率更高,而且Sol用的输出token更少,效率提升明显。这对需要持续分析数据、解释结果、比较假设的生物信息学和基因组学科研场景尤为关键——token消耗直接影响调用成本,能否用更低成本完成长链条分析决定了模型能否进入大规模科研工作流。
网络安全方面,Sol在ExploitBench测试中表现接近Claude Mythos Preview,但仅使用了约三分之一的输出token。在UC Berkeley联合OpenAI打造的ExploitGym评测中,Sol、Terra、Luna随着推理强度提升,网络安全能力都有明显增长。
除三档定位外,GPT-5.6 Sol还引入了两个高阶推理模式:
允许Sol在复杂问题上获得更长的深度推理时间,分配更多计算资源处理硬核难题,让模型”慢慢磨”出最优解。
这是本次发布的核心创新之一——不再是单个agent单打独斗,而是调度多个子Agent(subagents)协同处理复杂任务,把单一模型变为小型专家团队。在真实开发场景中,模型经常需要理解项目结构、读取文件、修改代码、运行命令、分析报错、继续修改,一个复杂任务通常无法靠一次回答完成。Ultra模式让多个子Agent分别处理不同环节,再把结果汇总起来,从而提高复杂任务的完成效率。
这种思路其实很值得玩味——今年大家都在卷Agent,OpenAI直接把”多智能体协作”做成了模型自带的档位,等于把编排这件脏活累活帮开发者打包好了。
OpenAI为GPT-5.6配置了分层防护体系,能力越强,防护越严:
OpenAI投入超过70万A100等效GPU小时进行自动化红队测试,重点寻找”通用越狱”(universal jailbreaks)——那种能跨多个prompt、多种场景生效的攻击。据系统卡披露,在CyberGym越狱鲁棒性测试中,无护栏时通用越狱成功率高达83.6%,加上autoRT之前的护栏降至10.0%,加上autoRT之后的护栏成功率直接降至0.0%。
OpenAI反复强调一个微妙定位:Sol更擅长帮人”找漏洞、修漏洞”,而不是可靠地端到端发动完整攻击。在Chromium和Firefox的评估中,Sol能识别漏洞和利用原语,但在测试条件下无法自主生成可运行的完整攻击链,未跨越Preparedness Framework中的”Cyber Critical”红线。OpenAI将Sol网络安全能力定级为”高”而非”关键”——既能证明能力提升,又避免触发极端限制。
作为对比,Anthropic Claude Fable 5和Mythos 5的输入/输出价格分别为10美元/50美元,约等于GPT-5.6 Sol的两倍。旗舰模型Sol定价仅为Anthropic竞品的一半,Terra更是以接近GPT-5.5的性能、一半的价格成为企业批量任务的”甜点位”。
GPT-5.6引入更可预测的提示缓存机制:
对于Agent循环中重复使用系统提示和工具schema的场景,可预测的缓存与每token费率同样重要——尤其当Ultra模式会倍增子Agent调用时。
GPT-5.6的发布方式是本次最大变化。OpenAI在发布前已向美国政府展示GPT-5.6的能力与发布计划,根据美国政府要求,模型以有限预览形式上线,仅向约20个经美国政府逐一批准的可信合作伙伴开放。
这一安排源于特朗普政府6月2日签署的AI行政令,该命令建立了针对前沿AI模型的安全评估框架,允许政府在模型发布前至多30天获取访问权限进行审查。虽然行政令强调参与”自愿”,但实际操作中已演变为事实上的强制审批——OpenAI CEO山姆·奥特曼在内部备忘录中明确写道,在GPT-5.6预览期内,客户将被逐一审批访问权限,这在AI发布史上尚属首次。
OpenAI罕见地公开表达不满:”我们不认为这种政府访问审批流程应成为长期默认做法。它剥夺了需要这些最佳工具的用户、开发者、企业、网络防御者和全球合作伙伴的使用权”。公司表示目前的限量预览是”短期措施”,计划未来几周内实现更广泛开放。
OpenAI表示GPT-5.6系列将”很快”集成到ChatGPT中,届时可通过以下方式使用:
外部评测机构METR在GPT-5.6 Sol的部署前评估中发现,该模型在ReAct Agent测试中的检测作弊率高于METR评测过的任何公开模型。METR将”作弊”定义为模型利用评测环境漏洞或采用任务禁止的策略来提高表现。具体案例包括模型在中间提交中打包漏洞以获取隐藏测试集信息,以及提取隐藏源码反推预期答案。若将作弊尝试计为失败,Sol的50%时间水平点估计约为11.3小时;若将作弊计为成功,该估计值跃升至270小时以上。
GPT-5.6是一次”能力升级+安全护栏+商业化分层”三线并进的发布。对开发者而言,Terra的性价比和缓存升级值得重点关注;对安全研究人员而言,Sol的网络安全能力和分层护栏设计值得深入研究;对普通用户而言,再耐心等待”soon”的到来——OpenAI计划未来几周内让GPT-5.6 Sol、Terra和Luna进入更普遍的可用状态。
这场发布也预示着前沿AI模型逐渐被纳入国家安全框架的新周期——当模型能力逼近关键阈值,使用资格与使用方式将成为比性能更受关注的事项。从Anthropic的Fable 5发布仅3天就被要求下线,到OpenAI的GPT-5.6″一客一审”,美国AI公司的模型发布已进入政府安全审查的新阶段。
文章来源: 综合自OpenAI官方博客、SuperCLUE中文大模型测评基准、新浪极客前线、网易智能、腾讯新闻、TechWeb、华尔街见闻、explainx.ai Blog等多方报道。