GPT-5.6震撼发布!OpenAI新一代旗舰模型Sol/Terra/Luna三档齐发,性能碾压Mythos 5却遭美国政府”一客一审”

Ai资讯3小时前发布 大国Ai
33 0 0

摘要:2026年6月27日,OpenAI正式发布迄今为止最强AI模型系列GPT-5.6,包含Sol(旗舰)、Terra(均衡)、Luna(轻量)三档,并新增Ultra多智能体协同模式。GPT-5.6 Sol在Terminal-Bench 2.1测试中以91.9%刷新纪录,超越Anthropic Claude Mythos 5的84.3%;网络安全领域仅用三分之一token即对标Mythos Preview;上下文窗口扩展至150万tokens,价格却与GPT-5.5持平,仅为Claude Fable 5的一半。然而,因美国政府要求,该模型目前仅向约20家”可信合作伙伴”有限预览,客户访问需逐一审批,普通用户预计”未来几周”才能使用。


一、三档模型重构产品线,Sol/Terra/Luna取代Pro/Mini命名

OpenAI本次彻底重构产品线,采用”太阳-地球-月亮”的天体命名体系,数字代表代际,Sol/Terra/Luna代表能力层级,未来可独立迭代。

  • GPT-5.6 Sol(旗舰版):定位最复杂推理、科研、软件开发、网络安全及AI Agent工作流,引入Max Reasoning(最大推理强度)和Ultra Mode(多子Agent协同模式)两种高阶模式
  • GPT-5.6 Terra(均衡版):性能接近GPT-5.5,成本降低约50%,适合企业及日常生产力场景
  • GPT-5.6 Luna(轻量版):速度最快、价格最低,适合大规模在线服务及高吞吐场景

其中,Sol Ultra模式是本次最大亮点——它引入”子代理”机制,把复杂任务拆分给多个Agent并行处理,而非单个模型一路问到底,适合大型软件开发、复杂规划和科研工作。

GPT-5.6震撼发布!OpenAI新一代旗舰模型Sol/Terra/Luna三档齐发,性能碾压Mythos 5却遭美国政府"一客一审"

二、性能全面SOTA:编程、网安、生物三大领域刷新纪录

编程能力:Terminal-Bench 2.1创历史最佳

在检验命令行工作流的Terminal-Bench 2.1测试中,GPT-5.6 Sol系列表现碾压级:

模型 得分
GPT-5.6 Sol Ultra 91.9%
GPT-5.6 Sol 88.8%
GPT-5.5 88.0%
Claude Mythos 5 84.3%
GPT-5.6 Luna 84.3%
Claude Fable 5 83.4%
GPT-5.6 Terra 82.5%
Claude Opus 4.8 78.9%
Gemini 3.1 Pro Preview 70.7%

网络安全:OpenAI号称”史上最强Cyber模型”

GPT-5.6 Sol在ExploitBench测试中,仅使用约三分之一的输出token,即可与Claude Mythos Preview相媲美。在UC Berkeley与OpenAI共同推出的ExploitGym基准中,Sol/Terra/Luna三款模型相比GPT-5.5均有明显提升,且随着推理时间增加,安全研究能力进一步增强。

不过OpenAI明确表示,GPT-5.6更擅长辅助漏洞发现修复而非端到端攻击,在Chromium和Firefox测试中能找到关键环节,但无法自主生成完整可利用攻击程序,未达到”Cyber Critical”风险等级。

生物科研:GeneBench v1效率与性能双提升

在评估长周期基因组学和定量生物学分析的GeneBench v1测试中,GPT-5.6 Sol相比GPT-5.5取得更强结果,且使用输出tokens更少。

三、上下文窗口扩展至150万tokens,推理效率显著优化

据开发者披露,GPT-5.6的上下文窗口从100万tokens扩展至150万tokens,提升约43%,能一次性处理整个代码库或数本书籍内容。在长链条Agent任务上,token消耗比GPT-5.5再节省10%至15%。

更值得关注的是推理效率:使用GPT-5.6 Sol,不到100K token就能超过Opus 4.7需要200K token才能达到的智能水平。作为对比,国产模型如GLM 5.2要达到同等智能水平,往往需要使用超过其2倍甚至3倍的token。

四、价格屠夫策略:Sol与GPT-5.5同价,仅为Claude一半

OpenAI本次定价极具攻击性(每百万token计):

模型 输入价格 输出价格
GPT-5.6 Sol $5 $30
GPT-5.6 Terra $2.5 $15
GPT-5.6 Luna $1 $6
Claude Fable 5 / Mythos 5 $10 $50
Claude Mythos Preview $25 $125
智谱GLM-5.2 $1.4 $4.4

GPT-5.6 Sol虽为新一代旗舰,但价格对齐GPT-5.5标准版,仅为Anthropic Claude Fable 5的一半。Terra直接降至GPT-5.5的一半,Luna只有GPT-5.5的五分之一,与国产开源模型GLM-5.2处于同一价格带。

此外,GPT-5.6还引入更可预测的Prompt Caching机制:支持显式缓存断点,缓存有效期至少30分钟,缓存写入按1.25倍标准输入价计费,缓存读取继续享受90%折扣。

五、7月Cerebras平台上线,推理速度达750 token/秒

OpenAI宣布7月将在Cerebras硬件上运行GPT-5.6 Sol,目标推理速度750 Token/秒。如果属实,意味着用旗舰模型也能获得接近实时的响应体验,这对复杂Agent工作流的用户体验将是质的提升。

六、最强安全防护体系:70万GPU小时红队测试

OpenAI为GPT-5.6系列配备了”史上最强级别”安全防护,在正式发布前投入超过70万张A100 GPU等效算力进行自动化红队测试。安全体系采用分层防护:

  1. 模型内置拒答:训练模型主动拒绝违规网络攻击请求
  2. 生成过程实时分类器:持续检测网络安全、生物安全等高风险内容
  3. 账户级风险审查:对连续可疑行为综合判断,区分真实研究人员与恶意用户
  4. 差异化访问与监控执法:高风险情况暂停生成,交由更大推理模型复核

GPT-5.6全系列三款模型在网络安全和生化能力维度均被内部评为”High”风险等级,但未触及最高”Critical”级别。

七、美国政府”一客一审”:GPT-5.6发布史无前例受限

相比模型性能,本次发布方式更受市场关注。OpenAI在公告中披露,发布前已向美国政府展示计划及模型能力,”应政府要求”首先向约20家可信合作伙伴提供有限预览,合作伙伴名单已与政府共享。

更引人注目的是,OpenAI CEO萨姆·奥特曼在内部备忘录中明确写道:在GPT-5.6预览期内,客户将被逐一审批访问权限,这在AI发布史上尚属首次。

这一安排源于特朗普政府6月2日签署的AI行政令,该命令建立针对前沿AI模型的安全评估框架,允许政府在模型发布前至多30天获取访问权限进行审查。虽名义上”自愿”,但实际已演变为事实上的强制审批——此前Anthropic的Fable 5发布仅3天便被要求下线。

OpenAI罕见公开强调,这种政府审批式开放机制**”不应成为长期默认模式”**,理由是若最强工具总是被拖延开放,用户、开发者、企业、网络防御者和全球合作伙伴都会更晚拿到最好的工具。奥特曼表示有信心在”未来数周内”让广大用户使用。


文章来源

本文综合自TechWeb、智东西、腾讯新闻、36氪、网易科技、搜狐、新浪科技等媒体报道,以及OpenAI官方公告。核心信息参考自2026年6月27日各平台发布的相关报道。

© 版权声明

相关文章

暂无评论

none
暂无评论...