核心摘要: OpenAI于2025年12月12日低调发布GPT-5.2系列模型,旨在应对谷歌Gemini 3的竞争压力。根据早期深度评测,GPT-5.2在指令遵循、代码生成和复杂推理能力上实现了“真正的进步”,其Pro版本被描述为“缓慢的天才”。然而,显著的响应延迟和高昂的使用成本成为其普及的主要障碍。评测者建议,日常快速任务可选用Claude Opus 4.5,而将GPT-5.2 Pro留给最需要深度思考的工作。
2025年12月12日,OpenAI在未举办大型发布会的情况下,悄然推出了其最新前沿模型系列GPT-5.2。这一发布被普遍视为对谷歌上月推出Gemini 3 Pro的直接回应,OpenAI CEO萨姆·奥特曼(Sam Altman)甚至在内部拉响了“红色警报”以应对竞争。尽管官方基准测试成绩亮眼,但早期深度用户的真实体验揭示了这款“地表最强AI”光环下的双面性:令人惊叹的能力飞跃与不容忽视的性能短板。
与上一代相比,GPT-5.2并非简单的参数堆砌,而是在任务理解和执行深度上实现了质变。OthersideAI CEO Matt Shumer在进行了为期两周的内测后指出,新模型最引人注目的改进在于其指令遵循和任务意愿。
“GPT-5.2最引人注目的地方在于它遵循指令的方式——不是基础的‘我说你做’,而是‘真正完成我所描述的整个任务’。”Shumer举例称,当要求模型先构思50个故事点子再挑选最佳进行创作时,GPT-5.2会完整生成全部50个构思,而非像其他模型那样走捷径。这种对流程的信任和完成宏大任务的意愿,为自动化工作流开启了新的可能性。
在专业工作场景中,这种进步更为明显。根据OpenAI官方数据,在新推出的GDPval基准测试(涵盖44种职业的知识工作任务)中,GPT-5.2 Thinking在70.9%的情况下表现优于或持平于人类顶尖专家。在模拟初级投资银行分析师制作电子表格的任务中,其平均得分比GPT-5.1高出9.3个百分点。这意味着AI在制作销售演示文稿、会计表格、项目管理图表等实际工作产出上,正无限逼近专业人类水平。
对于开发者而言,GPT-5.2的代码生成能力提升显著。在更具挑战性的SWE-Bench Pro基准测试中,GPT-5.2 Thinking取得了55.6%的成绩,领先于主要竞争对手。Shumer的测试显示,新模型编写的代码质量更高、更自主,并且愿意处理更庞大、更复杂的工程任务。AI编程公司Windsurf的CEO甚至评价其为“智能体编程(Agentic Coding)的最大飞跃”。
长上下文理解和视觉能力也得到大幅增强。GPT-5.2是目前唯一在长达256K token(约数十万字)的“大海捞针”测试中接近100%准确率的模型,使其能够可靠地分析长篇合同、财报等文档。在视觉方面,模型特别优化了对图表、仪表盘和UI界面的理解,虽然空间感知仍有改进空间,但已能准确解读技术图表和可视化报告。
然而,GPT-5.2的强大能力伴随着显著的代价。最突出的问题是响应速度。OpenAI在官方博客中坦言,“复杂的生成可能需要数分钟才能完成”。Shumer的体验更为直接:“标准的GPT-5.2 Thinking很慢。根据他的经验,即使是简单直接的问题,速度也非常非常慢。”这导致他在日常工作中很少使用Thinking模式,转而用Claude Opus 4.5处理快速提问,仅将GPT-5.2 Pro用于深度推理任务。
与此同时,使用成本大幅上涨。GPT-5.2系列API价格较前代提升约40%,其中GPT-5.2 Pro更是高达每百万输入Token 21美元,输出Token 168美元。尽管OpenAI强调每Token的性价比有所提升,但对于预算有限的初创公司和个人开发者而言,单次任务的总成本依然不菲。
在竞争白热化的大模型赛场,GPT-5.2虽强,但领先优势已不再绝对。评测者通过实际工作流对比发现,不同模型已形成差异化优势:
行业观察指出,OpenAI曾经长达一至两年的技术领先优势,如今已被压缩到数周甚至数天。在基础模型的构建方法论已成为行业共识的当下,工作流的整合能力、智能体的实际表现以及基准测试无法量化的应用价值,正成为新的竞争焦点。
GPT-5.2是一次聚焦于“专业工作”和“可靠性”的实质性升级。它让AI从“展示能力的工具”更进一步,成为能够融入严肃、复杂工作流的“专业助手”。其Pro版本在深度推理任务上展现出的理解力令人震惊,例如能真正理解用户“没时间做饭”背后对简化购物和备餐流程的深层需求。
然而,其缓慢的响应速度和高昂的使用成本,为大规模普及设置了门槛。对于大多数用户,明智的策略或许是依据任务类型混合使用不同模型:追求效率时选择更快的竞品,而在追求极致质量和深度时调用GPT-5.2。
随着奥特曼预告的“圣诞礼物”即将到来,以及OpenAI计划在明年第一季度推出“成人模式”,这场围绕“最强AI”头衔的竞赛远未结束。对于用户而言,好消息是:选择越来越多,而AI的能力边界,正在以惊人的速度被拓宽。
文章来源:本文综合编译及参考自OthersideAI CEO Matt Shumer的深度评测、OpenAI官方发布博客、36氪、网易科技等多家媒体于2025年12月12日的相关报道。