摘要:GPT-5.6系列模型预计于2026年6月25日(周四)正式发布,内部代号”iris-alpha”。据多个泄露渠道与开发者探针测试显示,新模型上下文窗口从100万tokens扩展至约150万,推理容量(Juice Value)从768飙升至960,知识截止日期推至2025年12月。在Agent化能力、视觉复刻、SVG 3D生成、Playwright浏览器自动化等方向实现跨越式升级,代理编码能力据称已超越Anthropic的Mythos系列,定价可能仅为Claude Fable 5的三分之一。本文从技术规格、能力跃迁、定价策略、性能争议四个维度,深度拆解GPT-5.6 Pro的”长手长脚”野心。
关于GPT-5.6的发布节奏,目前信息已相当密集。科技媒体testingcatalog于6月19日爆料,OpenAI计划在6月22日至28日窗口期推出GPT-5.6系列,涵盖mini、标准版及Pro版三个版本。预测市场Polymarket上,该窗口的发布概率一度被押到89%,累计下注金额超过96万美元。
更精确的信号来自社区大V Leo的确认——GPT-5.6 Pro正通过GPT-5.5 Pro入口进行隐蔽A/B测试,部分Pro账户已经命中,计划的公开发布日期指向6月25日(周四)。OpenAI首席科学家Jakub Pachocki也在内部向员工表示,GPT-5.6是对GPT-5.5的”有意义的改进(meaningful improvement)”。
值得注意的是,从GPT-4到GPT-5等了一年多,而从GPT-5.5到GPT-5.6间隔仅一个多月——OpenAI把主力版本的迭代周期压缩到了前所未有的速度。但Reddit上也有冷静声音提醒:5.6仅是小版本迭代,参数规模不会大幅跃升,真正的模型级突破需等待GPT-6。
GPT-5.6最受瞩目的硬规格升级,是上下文窗口从GPT-5.5的100万tokens扩展至约150万tokens,增幅约43%。150万tokens是什么概念?一本《三体》约30万字折合40万tokens,150万相当于近四本《三体》的文本量。
开发者通过ChatGPT Pro的OAuth认证在Codex环境中成功调用了未公布的GPT-5.6模型,探针测试显示极限实测输入90万tokens时模型依然对答如流,甚至突破1.05M的请求也能被完美接住。在编程场景下,这意味着模型能同时吃下一个大型项目的多个源文件、依赖库文档和测试用例,不用反复截断拼接上下文。
但窗口扩展不是简单加内存。长上下文模型有个核心难题——注意力衰减,模型处理超长文本时对中间部分信息的关注度会下降,出现”中间遗忘”现象。GPT-5.6能否在150万tokens范围内保持稳定的检索精度,才是衡量这次升级价值的关键。
社区扒出的参数显示,GPT-5.6 Pro内部代号”Juice Value”的推理容量从GPT-5.5的768拉升到960,涨幅达25%。这个参数直接决定了模型在复杂任务上能”想多深”、”撑多久”。
知识截止日期方面,从GPT-5.5的2025年8月直接推到2025年12月——多了四个月的”记忆”,意味着模型对2025年下半年发生的事情有了更完整的理解。此外,词元效率也再度提升10%至15%,意味着相同费用可处理更多工作量。
GPT-5.6最被瞩目的代际意义,是其代理编码(agentic coding)能力已超越Anthropic当前领先的Mythos模型。这不是泛泛而谈的基准测试分数,而是指向真实场景中模型作为”智能体”完成端到端软件构建的稳定性、容错率与抽象层级。
当AI能自主拆解”为乡村小学设计离线课表管理系统”这类含社会语境、资源约束与教育逻辑的复合任务,并生成可运行、可解释、可迭代的完整方案时,”旗舰模型”的定义正在被重写。据CSDN报道,GPT-5.6在代码生成、调试、漏洞修复、工程重构及跨语言迁移五大维度的综合能力提升了40%。
更关键的是Playwright支持的接入。泄露信息显示,未来即便是在普通版ChatGPT网页端和移动端中,GPT-5.6 Pro也将支持直接调用Playwright执行任务。这意味着AI不只是看网页,还能帮你操作网页——填表单、点按钮、抓数据,一条龙。
X网友点评一针见血:”GPT-5.6脑子还是那个脑子,但他已经长出手了。一个能和你聊天、告诉你该怎么做的人,现在能打开你的浏览器,移动你的鼠标,复制一个设计,生成一个3D图标,保存到桌面上。”
OpenAI现在做的,不再是训练一个更聪明的”大脑”,而是在给这个大脑装上”手”——把大模型从只会动脑子的认知工具,变成能动手的物理智能体。这不只是竞争维度的升级,更是AI从”脑力”向”手脚”的实质性延伸。
最炸裂的实测案例来自GPT-5.6 Pro——聊天框里一句话,48分钟,一个完整能跑的《模拟人生》就这么”水灵灵地蹦出来了”,带情感AI、带职业系统、角色有完整行为逻辑,只用了一个单独的HTML文件。没有harness,没有工具链,没有任何编码工具,一句话直出。
《模拟人生》要管角色的情绪、社交、工作、人生轨迹,背后是一套盘根错节的状态系统——当年EA做这款游戏,是一整个团队扑上去、磨了好几年的大活儿。而GPT-5.6 Pro给的版本里,情感AI在线,职业系统在线,角色的喜怒哀乐和升职加薪都能跑。
还有测试者用它生成了一个包含25种宝可梦的像素体宝可梦公园,整合到单一3D场景中进行合理定位,程序生成的声音、摄像机跟随、起飞动画一应俱全,仅用30分钟完成。GPT-5.6 Pro对3D空间、物体层级、材质和光照的理解明显更强,意味着它对世界的理解正在从”平面”走向”立体”。
GPT-5.6 Pro对于设计稿的理解和还原能力已经有了明显提升,部分案例甚至接近”像素级复刻”。泄露信息显示,它能”近乎完全复刻设计”——如果它能直接输出一套和设计稿像素级吻合的代码或矢量文件,那么”分析”和”执行”之间的界限就没了。
设计师不用再把手绘草图扔给程序员,程序员也不用再把需求文档硬译成代码,AI直接跨过中间环节,把意图变成成品。这不只是效率提升,这是工作流的重构。
在SVG生成测试中,测试者用”创建一幅BMW M4 Competition侧视图SVG插画,4:3比例,使用原厂配色,仅使用矢量图形,不使用渐变”这一相同Prompt,结论是GPT-5.6 Pro”完爆所有人”。不过测试结果仍存在较大波动——另一位用户测试”一只骑自行车的鹈鹕”时却得出相反结论,认为”SVG能力似乎还是不太行”。
也有用户给出的排名是:Fable 5 High < GPT-5.6 Pro < Fable 5 XHigh,Claude Fable 5在最高思考模式下仍具备竞争力。综合来看,GPT-5.6 Pro与Claude Fable 5更像是互有胜负的”五五开”竞争格局,而非所谓的”Fable Killer”。
定价是这次最受关注的市场策略。目前Claude Fable 5和Mythos 5的官方定价为:每百万输入token 10美元,每百万输出token 50美元。多方消息显示,GPT-5.6的token定价可能只有Claude Fable 5的三分之一左右,输入价格可能在3美元上下,输出价格可能在15美元上下。
这个定价时机很微妙——Anthropic刚在5月完成H轮融资,估值9650亿美元,头一回反超OpenAI的8520亿。用低价抢开发者市场的意图很明显,同时靠自主执行能力做差异化。
能搞低价策略,背后是规模效应和资本支撑的双重作用。今年OpenAI启动了IPO,估值8520亿美元。Anthropic估值虽然反超,但OpenAI在用户规模和API调用量上仍占优势,大规模推理带来的边际成本下降给低价留了空间。对开发者来说,拿一个日均处理100万token的RAG应用算笔账:用Claude Fable 5月成本约1800美元,如果新模型定价为三分之一,月成本能降到约600美元。
但价格不是选型的唯一考量。模型的能力边界、安全对齐水平、API稳定性、生态工具链成熟度,都是开发者要综合考量的维度。如果在复杂推理、代码生成等关键任务上表现不如竞品,低价反而可能被开发者视为”便宜没好货”的信号。
GPT-5.6 Pro现阶段最大的争议在于速度。面对高复杂度任务时,模型思考耗时可达20-40分钟,部分案例甚至跑了60多分钟。网友吐槽:”如果GPT-5.6 Pro真的每次都要思考40分钟,那律师行业可能会喜欢它。以后AI时间也能按工时收费了。”
也有人表示:”还是站Anthropic。为了性能提升,去忍受20-40分钟的等待?而且价格更贵。”漫长等待能否被市场用户接受,或将是GPT-5.6 Pro正式面世后最受争议的痛点。
更值得关注的是,就在GPT-5.6泄露的同一周,GPT-5.5正陷入”降智”风波。网友发现GPT-5.5用了一两个小时后突然变傻,每个请求都是秒回,质量断崖式下跌,但界面上显示的依然还是”GPT-5.5 Extended Thinking”。
OpenAI官方帮助文档承认,Plus用户每3小时最多发送160条GPT-5.5消息,用完后系统会”静默切换到mini模型”,没有弹窗提示,没有模型标签变化。开发者Andrew Curran直接问模型”你的训练数据截止日期是什么?”模型回答August 2025——而GPT-5.5 Thinking的截止日期是12月,8月是Instant版本的截止日期。
从GPT-5到GPT-5.5的每个更新,”降智争议”一次都没缺席。跑分最强的那一天永远是发布日,之后每一天都是”薛定谔的GPT”。一边是5.5用户连基础体验都保不住,一边是5.6已经在后台悄悄跑真实流量——这就是2026年的ASI竞赛。
同期,Anthropic的Claude Fable 5/Mythos 5和Google的Gemini 3.5 Pro也在同一窗口期发布或测试。三家的技术路线分歧很明显:
路线分歧背后,是三家公司对AI商业化路径的不同判断。对开发者而言,这种竞争意味着更多选择和更低成本,但也增加了技术选型的不确定性——当三家路线分化时,开发者押注任何一方都面临路线被淘汰的风险。
如果GPT-5.6的自主执行能力达到实用水平,意味着AI从”工具”向”助手”的转变加速。开发者要关注的不仅是模型的单次推理能力,更是其在多步任务中的规划、执行和纠错能力。这一转变对应用架构、测试方法和安全机制都提出了新要求。
OpenAI不再做一个只会聊天的对话框,它要做一个能接管你所有数字化生存空间的”超级智能体”。当AI长出”手”和”脚”,语言模型的终局会是什么?这个问题,或许GPT-5.6会给我们第一个真正可触摸的答案。
文章来源:本文综合自公开报道与开发者社区信息,参考资料包括搜狐科技、ShowAPI、今日头条、星岛头条、凤凰科技、澎湃新闻、新智元/网易科技、新浪财经/市场资讯等。模型实际能力以官方发布后的独立测试为准,本文不构成任何产品推荐或使用建议。