摘要: 北京时间2025年12月17日,OpenAI正式推出新一代图像生成模型GPT Image 1.5,并面向所有ChatGPT免费用户开放。此次更新被视为对谷歌Nano Banana Pro等竞品的直接回应,核心升级在于解决了AI图像编辑中长期存在的“一改就废”痛点,实现了精准的局部编辑与多轮一致性保持。模型生成速度提升至前代的4倍,API调用成本降低约20%,标志着AI图像生成正从“玩具”向实用“工具”转变。
GPT Image 1.5最显著的进步在于其“精准编辑”能力。过去,用户使用AI修改图片细节时,常面临“牵一发而动全身”的窘境,例如只想调整人物发型,结果整张图片的光影、构图甚至人物面貌都发生剧变。新模型通过底层技术优化,能够更准确地理解并执行局部修改指令,同时保持画面其他元素的稳定性,如光线、构图和人物外貌特征在多轮编辑中得以连贯保留。
官方演示案例清晰地展示了这一能力:从将两个男人和一只狗合成到一张生日派对照片开始,经过“添加背景小孩”、“将左侧人物改为手绘动漫风格”、“为所有人换上指定卫衣”等多达五轮的连续编辑,核心元素(如狗的形象)始终保持一致,画面逻辑未出现崩坏。这意味着用户可以进行更复杂、更精细的图像创作与迭代,而无需担心编辑链条失控。
除了编辑精度,GPT Image 1.5在多项关键指标上均有显著提升:
为配合新模型上线,OpenAI对ChatGPT的产品界面进行了重要调整。在网页端和移动应用的侧边栏新增了独立的“图像”(Images)功能入口。这个专属创作空间并非简单的功能聚合,其设计更接近一个轻量级的创意工作室,内置了多种预设风格模板(如“复古胶片风”、“赛博朋克海报”)、常用提示建议及滤镜选项,旨在降低用户的使用门槛,即使不擅长编写复杂提示词的用户也能快速生成满意图像。
OpenAI首席执行官山姆·奥特曼(Sam Altman)在社交平台亲自演示,使用新模型生成了一组男性写真日历图像,引发了广泛关注。这一产品化思路表明,OpenAI正致力于将前沿的生成能力转化为直观、易用的消费级功能,使ChatGPT从一个以文本为核心的对话工具,向整合文本、图像、编辑于一体的多模态工作台演进。
GPT Image 1.5的发布被广泛解读为OpenAI在“代码红色”(Code Red)战略下,对谷歌Gemini系列(特别是Nano Banana Pro)强势竞争的一次紧急反击。实测对比显示,双方各有优劣:
行业观察指出,此次升级让AI图像工具的竞争焦点从“能否生成图像”转向“能否高质量、高一致性地编辑图像”。对于普通用户而言,GPT Image 1.5将“快速生成”、“精准编辑”和“易用性”结合,加上ChatGPT庞大的用户基础,有望吸引一批寻求一体化解决方案的用户。
OpenAI此次罕见地公布了GPT Image 1.5项目背后的核心团队名单。项目由Gabriel Goh(研发负责人)和Adele Li(产品负责人)主导。更引人注目的是,名单中出现了Sora负责人Bill Peebles和DALL-E系列缔造者之一Aditya Ramesh的名字,这强烈暗示了新模型可能在底层借鉴了Sora的“世界模拟”等先进技术,或为未来图像与视频生成的无缝融合做铺垫。
此外,OpenAI组建了规模庞大的“安全、诚信与策略”团队,由数十名专家负责内容过滤、防止滥用和确保合规,表明其在追求技术突破的同时,高度重视产品的安全性与社会责任。
展望未来,OpenAI计划在ChatGPT中引入更多视觉元素,例如在回答查询时自动生成图表、示意图,或在规划旅行路线时附上景点照片和地图,进一步强化其多模态和实用工具属性。同时,与迪士尼达成的为期三年的授权协议,意味着用户未来可能使用Sora和图像模型生成迪士尼、漫威等旗下角色内容,为IP与AI的结合打开了巨大的想象空间。
文章来源:本文综合自中关村在线、站长之家、腾讯新闻、IT之家、网易科技等多家媒体于2025年12月17日的报道。