一场由0.1版本号迭代引发的行业地震,正在重新划分AI势力的版图。OpenAI用更聪明、更自主的GPT-5.5,宣告自己仍是赛场上的顶级玩家。
2026年4月24日凌晨,OpenAI的官方账号发布了一条简讯,正式推出GPT-5.5。这不仅仅是一次常规的版本更新,OpenAI将其定义为“一种全新的智能类别,专为实际工作和驱动代理而设计”。
几乎在同一时间,竞争对手Anthropic宣布修复了困扰用户一个多月的Claude Code“降智”问题。这场看似巧合的隔空交锋,揭开了大模型竞争新阶段的序幕。
在知名第三方评测机构Artificial Analysis的综合智能指数榜单上,OpenAI凭借GPT-5.5系列上演了一场“屠榜”好戏。
榜单前六名中,OpenAI一家就占据了四席,直接包揽了冠军和亚军。这种统治级的表现在大模型竞争史上相当罕见。
具体到各项基准测试,GPT-5.5的提升是全方位的。在测试复杂命令行工作流的Terminal-Bench 2.0上,GPT-5.5达到了82.7%的得分,远超GPT-5.4的75.1%和Claude Opus 4.7的69.4%。
更值得关注的是在SWE-Bench Pro上的表现,这项测试评估模型解决真实GitHub问题的能力。GPT-5.5达到了58.6%,能够在单次运行中端到端完成更多任务。
OpenAI内部还有一个更严苛的Expert-SWE评测,任务的人类预计完成时间中位数长达20小时。在这里,GPT-5.5取得了73.1%的成绩,而GPT-5.4为68.5%。
关键的是,GPT-5.5在三项评测中都用了更少的token就完成了任务——既更聪明,也更节省。
基准测试分数只是故事的一部分,早期用户的真实反馈更能说明GPT-5.5的进化。
Cursor联合创始人Michael Truell观察到,GPT-5.5比前代“更聪明、更有韧性”,工具调用更可靠,面对复杂长期任务时能坚持更久而不中途放弃。
一位英伟达工程师的评论更加生动:“失去对GPT-5.5的访问权限,感觉就像我的肢体被截肢了一样。”这种依赖感在AI工具中并不常见。
知名评测博主Dan Shipper分享了一个具体案例:他的应用上线后出现问题,自己调试数天未果,最终不得不请工程师重写部分系统。
当他用GPT-5.5重现这一场景时,模型给出了与人类工程师完全相同的解决思路,而GPT-5.4对此无能为力。
在知识工作场景,GPT-5.5同样表现出色。在衡量横跨44种职业知识工作能力的GDPval评测中,GPT-5.5的获胜或打平比例达到84.9%。
在需要自主操作真实计算机环境的OSWorld-Verified测试中,它取得了78.7%的成绩;在测试复杂客服工作流的Tau2-bench Telecom上,更是在无提示词调整的情况下达到了惊人的98.0%。
GPT-5.5的突破不仅在于模型本身,还在于其背后推理基础设施的协同升级。OpenAI透露,GPT-5.5与NVIDIA的GB200和GB300 NVL72系统联合设计和训练。
一项关键改进是负载均衡和分区策略。Codex分析了数周的生产流量数据,编写了自定义启发式算法来动态优化分区和负载均衡,最终将token生成速度提升了超过20%。
有趣的是,GPT-5.5本身也参与了改进自身推理基础设施的过程。这种“自我优化”的能力或许预示着AI发展的新方向。
OpenAI内部的使用数据也很有说服力:超过85%的员工每周使用Codex,覆盖软件工程、财务、传播、市场、数据科学和产品管理等各个部门。
财务团队用GPT-5.5审查了24771份K-1税务文件,共计71637页,最终比上一年提前两周完成。市场团队的一名员工则用它自动生成每周业务报告,每周节省5到10小时。
GPT-5.5的发布,清晰地揭示了OpenAI的生态战略转向。他们不再满足于做一个聪明的聊天机器人,而是要打造一个吞噬一切工作流的“AI超级应用”。
OpenAI总裁Greg Brockman用“自主性”来形容这次模型的跨越。与前代相比,GPT-5.5消耗的Token更少,但思考速度更快、逻辑更清晰,开始展现出主动解决复杂问题的能力。
这正是迈向超级应用的坚实底座。想象未来的工作流:人们不必在浏览器、代码编辑器、数据分析工具之间反复切换。只需对着这个超级应用下达宏观指令,GPT-5.5就能自主在后台打开网页搜集资料、编写代码、清洗数据,最终交付完整的分析报告。
与此同时,OpenAI也在通过Codex加强开发者生态的粘性。就在最近,Sam Altman透露,Codex活跃用户在突破300万不到两周后便直逼400万大关,OpenAI随之重置速率限制,以“量大管饱”的姿态巩固开发者阵地。
GPT-5.5的发布时机值得玩味。就在前一天,外媒报道Anthropic在私募二级市场的估值已突破1万亿美元,而OpenAI今年3月末的最新估值仍停留在8520亿美元。
面对被追赶的压力,OpenAI的反击迅速而有力。GPT-5.5不仅在多项基准测试中领先,更重要的是,它展现了更完整的生态布局能力。
当然,竞争远未结束。在网友整理的一份对比表格中,新兴模型Mythos Preview在SWE-Bench Pro上取得了77.8%的成绩,高于GPT-5.5的58.6%。
但OpenAI似乎并不担心。当被问及“GPT-5.5是否具备类似Mythos能力”时,OpenAI技术人员Mia Glaese给出了一个意味深长的回答:“我们在网络安全方面有着长期且强有力的战略,并且已经完善了一套持久的、安全推出模型的方法。”
言外之意很明确:单一的强大模型只是过客,真到了拼企业级落地的深水区,完整的生态壁垒才是B端客户需要的安全牌。
文章来源:本文基于APPSO于2026年4月24日发布的《刚刚,GPT-5.5 发布!Claude Code 连夜治好降智,「奥特曼瘫倒」喜提续集》改写,由大国Ai导航(daguoai.com)整理编辑。