断层第一!GPT-5.5 xhigh 登顶 MathArena,OpenAI 模型推理能力已独孤求败?

Ai资讯2小时前发布 大国Ai
21 0 0

摘要: 近日,MathArena 数学竞赛榜单更新,OpenAI 的 GPT-5.5 xhigh 以 85.7% 的压倒性成绩强势登顶,将自家上代旗舰 GPT-5.4-Pro 远远甩在身后。数学能力作为检验 AI 推理硬实力的试金石,这一成绩不仅印证了 GPT-5.5 系列在逻辑层面的飞跃,更暗示着大模型竞争已进入“代差”碾压的新阶段。


在 AI 圈,文学创作还可以靠辞藻堆砌或者风格模仿来掩饰不足,但数学不会撒谎。数字对了就是对了,逻辑断了就全盘皆输。

就在最近,硬核数学竞赛榜单 MathArena 迎来了新的“榜一大哥”——GPT-5.5 xhigh。它以 85.7% 的高分直接空降榜首,而上代王者 GPT-5.4-Pro 仅以 82.9% 位居第二,标准版 GPT-5.4 则停留在 74.6%。虽然看起来只是几个百分点的差距,但在高难度数学题的修罗场里,这点分差往往意味着能不能解开那道“压轴题”。

不只是刷榜,是推理逻辑的“脱胎换骨”

如果说单纯的跑分上涨还不够让人兴奋,那 GPT-5.5 在推理层面的跨越式提升,恐怕要让竞争对手冒冷汗了。

早在之前的报道中就有数据显示,在 MathArena Apex 这类高难度数学竞赛题测试中,GPT-5.5 系列就展现出了从个位数到百分之二十多的恐怖涨幅。这种跨越并不是简单的“题海战术”练出来的,而是模型内化了更深层的逻辑链路。

断层第一!GPT-5.5 xhigh 登顶 MathArena,OpenAI 模型推理能力已独孤求败?

这种推理能力的质变,在“智商测试”中体现得更为赤裸。在 LisanBench 的测试中,GPT-5.5 Pro 的视觉智商直接飙到了 145,一脚踹开了门萨俱乐部“前0.1%天才区”的大门;其文本智商也达到了 130,正式跨过人类高智商俱乐部的门槛。要知道,仅仅在一年前,“大模型智商过不了 130”还是业界的共识,现在这堵墙已经被 GPT-5.5 彻底撞碎了。

从“做题家”到“发现者”:数学证明的降维打击

更让人细思极恐的是,GPT-5.5 已经不满足于仅仅做一名“高分考生”,它开始尝试成为一名“命题人”。

在 OpenAI 官方公布的案例中,GPT-5.5 配合自定义工具链,居然发现了一个关于拉姆齐数(Ramsey Number)的新证明,并在 Lean 语言中完成了形式化验证。在组合数学这种极为艰深的领域,新结果的诞生往往需要人类数学家数年的冥思苦想,而 GPT-5.5 却给出了有价值的数学论证。这说明模型的推理不再是简单的模式匹配,而是具备了向未知领域探索的结构性思维。

对手的尴尬:自己人卷自己人

目前的榜单格局相当有意思:前三名全被 OpenAI 自己包揽。GPT-5.5 xhigh 不仅在数学上断层领先,在 Terminal-Bench 2.0(复杂命令行操作)中也拿下了 82.7% 的高分,远超 Claude Opus 4.7 的 69.4%。在代理任务和实际编码场景中,GPT-5.5 甚至做到了在 token 消耗减少 45.6% 的情况下,智能分数提升了 1.77 倍。

这意味着,对于 Claude 和 Gemini 来说,最绝望的也许不是“追不上”,而是当你好不容易逼近上一代对手时,人家的新一代已经完成了自我超越。现在的 OpenAI,在模型推理质量上确实有点“独孤求败”的意思了。

在数学这种容错率为零的赛道上,牛逼就是真牛逼。GPT-5.5 xhigh 这次登顶,或许就是 AI 推理能力彻底拉开代差的发令枪。


文章来源:

  1. https://fakewechatarticle_0ea18f8aa36790a69b5a078b56bf81e7_8c7bfbfbd5f943d7057a6f00d3e08c097310608202466411
  2. http://www.36kr.com/p/3784222232403206
  3. https://finance.sina.com.cn/stock/t/2026-04-24/doc-inhvqmqa4406107.shtml
  4. http://36kr.com/p/3780018156311810
  5. https://www.sohu.com/a/1013900160_121124358
© 版权声明

相关文章

暂无评论

none
暂无评论...