【摘要】2026年4月24日凌晨,OpenAI扔出震撼弹,正式发布GPT-5系列迄今最大更新——GPT-5.5。本次更新的核心逻辑极其清晰:用更少的token,干更难的活。在Artificial Analysis的智能指数评测中,GPT-5.5以同级竞品一半的成本拿下了最高智能水平。它在终端操作、电脑控制、网络安全等Agent能力上全面碾压前代,甚至在内部测试中完成了拉姆齐数的新证明并通过Lean验证。然而,强悍性能的背后是API价格的3倍跳涨,且在部分长上下文和代码修复场景下,Claude Opus 4.7依然保有微弱优势。这不仅仅是一次模型迭代,更是AI从“对话框”走向“全自动数字员工”的转折点。
代码修Bug仍是Claude的舒适区:在真实GitHub issue解决测试中,Claude Opus 4.7报了64.3%的高分,超过GPT-5.5的58.6%。尽管OpenAI略带酸味地指出“Anthropic承认部分问题存在记忆化(即训练集混入了测试集)”,但企业客户真金白银的选票说明了一切——截至2026年初,Anthropic在企业端支出占比上已反超OpenAI。
超长文本与部分工具调用稍逊:在256K以上的长上下文检索中,Claude Opus 4.7依然保持着老炮儿的底蕴;而在MCP Atlas工具调用测试中,GPT-5.5(75.3%)也略低于Claude(79.1%)和Gemini(78.2%)。