核心摘要: 美国时间2025年12月11日,OpenAI正式发布其最新一代人工智能模型GPT-5.2系列。该系列在推理能力、专业任务处理及多模态理解上实现重大突破,其旗舰版本GPT-5.2 Thinking在涵盖44个职业的知识工作任务评测中,首次达到人类专家水平,胜率高达70.9%,标志着AI在专业领域应用迈入新纪元。新模型在多项基准测试中全面超越竞争对手Claude Opus 4.5与Gemini 3.0 Pro,并已向全球付费用户开放。
OpenAI此次发布的GPT-5.2并非一次简单的版本迭代,而是一次旨在重新定义AI助手能力边界的重大升级。根据官方数据,GPT-5.2 Thinking在多个核心基准测试中刷新了行业纪录,展现出全方位的领先优势。
在衡量软件工程能力的SWE-Bench Pro测试中,GPT-5.2 Thinking取得了55.6%的成绩,领先于Claude Opus 4.5的52.0%和Gemini 3 Pro的43.3%。这项测试基于真实的GitHub问题,意味着该模型已能独立解决超过一半的软件工程实战问题。
更引人注目的是,在研究生级别的科学问题测试GPQA Diamond中,其得分达到92.4%,较前代GPT-5.1 Thinking的88.1%进一步提升。而在被誉为“数学竞赛天花板”的AIME 2025测试中,GPT-5.2 Thinking更是获得了满分100%的惊人成绩。
然而,最具有里程碑意义的突破发生在GDPval评测中。这项测试覆盖了制作PPT、电子表格、文档撰写等44种真实职场任务。GPT-5.2 Thinking在此获得了70.9%的胜率,成为OpenAI首个在知识工作任务上达到甚至超越人类专家水平的模型。相比之下,上一代GPT-5 Thinking的胜率仅为38.8%。这意味着,在与行业专业人士的直接比拼中,GPT-5.2 Thinking在超过七成的任务中表现更优。
为满足不同用户群体的需求,GPT-5.2此次推出了三个定位清晰的版本:
除了基准分数的提升,GPT-5.2在实际应用层面的改进更为关键。OpenAI产品负责人透露,GPT-5.2 Thinking的回复错误率相比前代减少了38%,在日常决策、研究和写作中更为可靠。在控制“幻觉”(即事实性错误)方面也取得显著进展,事实问答中的幻觉率从GPT-5.1的17.1%降至10.1%,启用网络搜索后更可降至5.8%。
在长上下文处理和多步骤任务执行上,新模型也表现优异。它在需要从数十万token跨度中提取关联信息的深度文档分析任务中,准确率远超GPT-5.1。在涉及多工具调用的复杂自动化流程中,步骤中断率更低,使端到端的工作流更加稳定高效。
尽管GPT-5.2的API单token定价有所上涨(输入每百万token 1.75美元,输出14美元),但OpenAI强调,由于模型效率大幅提高,完成相同质量任务的总成本反而下降,单次任务完成率提升了3倍。在GDPval测试中,GPT-5.2完成专业任务的速度是人类的11倍以上,成本不足专家的1%,经济性优势显著。
GPT-5.2的快速发布被业界视为OpenAI应对激烈市场竞争的“亮剑”之举。就在发布前一周,OpenAI CEO山姆·奥特曼因竞争对手谷歌Gemini 3的出色表现,在公司内部启动了“代码红色”紧急状态,原定于12月下旬的发布计划被提前。
此次发布迅速获得了市场积极反馈。微软CEO萨蒂亚·纳德拉亲自祝贺,并宣布GPT-5.2已上线到Copilot及Microsoft Foundry等产品中。多家专注于AI编程的初创公司,如Windsurf和CharlieCode,报告称GPT-5.2实现了“业界顶尖的智能体编码性能”。
奥特曼在发布后表示,Gemini 3对公司各项指标的影响比预期要小,并预计OpenAI将在2026年1月“以非常强劲的姿态”退出当前的红色警报状态。他还预告,将在下周为用户带来“小小的圣诞礼物”。
自2025年12月12日起,GPT-5.2的三个版本已向ChatGPT的Plus、Pro、Business和Enterprise付费用户全面开放。Free和Go用户将于次日(12月13日)获得访问权限。API和Codex平台也已同步更新。
对于仍在使用GPT-5.1的付费用户,该版本将作为旧版模型继续提供三个月服务。随着GPT-5.2的全面铺开,AI在专业领域的应用门槛将进一步降低,人机协作的生产力革命即将进入新的阶段。
文章来源:本文综合自OpenAI官方公告及多家科技媒体报道,包括InfoQ、每日经济新闻、搜狐科技等。核心数据与发布信息均援引自OpenAI官方博客(https://openai.com/index/introducing-gpt-5-2/ )。