摘要: 美国人工智能公司OpenAI于其成立十周年之际,正式发布新一代大模型GPT-5.2系列。该模型被官方定位为“迄今为止在专业知识工作方面表现最好的模型”,在多项关键基准测试中刷新纪录,首次在涵盖44个职业的知识工作任务评估中达到或超过人类专家水平。此次发布被视为OpenAI对谷歌上月推出Gemini 3模型的直接回应,标志着其在“红色警报”状态下的快速反击。
当地时间2025年12月11日,OpenAI正式推出其GPT系列模型的最新迭代版本——GPT-5.2。此次发布正值公司成立十周年,被业界解读为在面临谷歌Gemini 3强势竞争压力下的一次关键产品升级。OpenAI首席执行官山姆·奥尔特曼(Sam Altman)此前因竞争压力启动了内部“红色警报”,集中资源加速研发,并预计公司将在2026年1月“以非常强劲的姿态”结束该状态。
GPT-5.2并非一次泛化的能力升级,而是明确聚焦于提升专业场景下的生产力。OpenAI官方强调,这是其迄今为止最适合“现实世界专业用途”的模型系列。新模型在制作电子表格、演示文稿、图像感知、编写代码以及理解长上下文等具体工作任务上,均优于前代产品。
为满足不同场景需求,GPT-5.2细分为三个版本:
GPT-5.2在多项衡量AI能力的基准测试中取得了突破性成绩,其中最引人注目的是在专业知识任务上首次媲美人类专家。
在评估涵盖44个职业知识型工作任务的GDPval测试中,GPT-5.2 Thinking在70.9%的任务对比中,表现优于或持平于顶尖行业专业人士。这些任务包括制作销售演示文稿、会计电子表格、制造流程图等具体产出。OpenAI指出,模型完成这些任务的速度是人类专家的11倍以上,而综合成本不足专家的1%。
在衡量真实世界软件工程能力的SWE-Bench Pro测试中,GPT-5.2 Thinking取得了55.6%的成绩,领先于前代;在SWE-bench Verified上更是达到了80%的新高。此外,在博士级科学知识测试GPQA Diamond中,GPT-5.2 Pro和Thinking版本分别达到93.2%和92.4%的准确率。
模型在长上下文理解和视觉推理方面也取得显著进步。在OpenAI MRCRv2测试中,GPT-5.2在25.6万token的超长上下文范围内,处理多文档信息整合任务的准确率接近100%。官方称GPT-5.2 Thinking为“当前最强视觉模型”,在图表推理和软件界面理解方面的错误率较前代降低约50%。
GPT-5.2的发布节奏凸显了当前AI行业竞争的白热化。OpenAI在今年8月推出GPT-5,11月发布GPT-5.1,此次不到一个月再次更新。这一快速迭代被普遍认为是对谷歌在11月推出Gemini 3模型的直接回应,后者凭借多模态和长文本处理等优势获得了市场关注。
奥尔特曼在发布日表示,Gemini 3对公司各项指标的影响“比原本担心得要小”。此次以专业知识工作为切入点的GPT-5.2,被视作OpenAI夺回市场话语权、吸引企业客户以提升营收的关键产品。
GPT-5.2已于发布当日开始向所有ChatGPT付费用户(包括Plus、Pro、Go、Business和Enterprise套餐)以及API用户逐步推送。付费用户在未来三个月内仍可继续使用GPT-5.1模型。
在API平台,GPT-5.2的定价为每百万输入tokens 1.75美元,每百万输出tokens 14美元,缓存输入可享受折扣。OpenAI表示,尽管单token价格高于前代,但由于模型效率更高,达到相同质量水平的总成本反而更低。
奥尔特曼在发布日预告,将在下周给用户带来“小小的圣诞礼物”。同时,有报道称OpenAI计划在明年1月再发布一款新模型,重点提升图像生成能力和个性化特点,但公司未对此传言予以确认。
随着GPT-5.2的推出,OpenAI在成立十周年之际展示了其加速产品迭代、巩固技术领先地位的决心。这场由谷歌Gemini 3引发的模型竞赛,正推动着大模型技术以更快的速度向专业化、实用化方向演进。
文章来源: 综合自财联社、界面新闻、每日经济新闻、第一财经、央广网及OpenAI官方发布信息。