北京时间2025年12月17日,OpenAI正式推出其新一代旗舰图像生成模型GPT Image 1.5,并同步在ChatGPT中上线了独立的“Images”创作空间。此次升级并非简单的功能迭代,而是围绕“从生成到编辑”的完整工作流程进行了系统性重塑,标志着AI图像生成从“随机创作”向“精准可控”的关键转变。新模型在指令遵循、编辑一致性和生成速度上实现显著提升,并已开始向全球ChatGPT用户及API开发者全面开放。
GPT Image 1.5最受瞩目的改进在于其多轮编辑过程中的细节一致性保持能力。长期以来,AI图像编辑面临“局部修改引发整体漂移”的难题,即修改一处细节可能导致人物面部、构图、光照等全局特征失真。新模型通过训练优化,能更精准地区分“需改变部分”与“应保留部分”,在内部推理中锚定关键视觉元素。
官方演示案例生动展示了这一能力:从三张独立图片(两个男人和一只狗)开始,经过“合成派对场景”、“添加背景小孩”、“局部风格化(动漫、毛绒玩具)”、“统一换装”乃至最终“移除人物、仅保留狗并置入新场景”的五轮复杂编辑后,核心主体(狗)的形象特征始终保持稳定。这种“精准编辑,不崩全图”的特性,使其在功能性照片微调、外观试穿、风格化重构等需要反复迭代的场景中具备了真正的实用价值。
除了编辑一致性,GPT Image 1.5在多个维度实现了系统性增强:
为配合新模型,OpenAI在ChatGPT中推出了独立的“Images”创作入口,而不再仅是对话中的附属功能。这个空间围绕“快速试错与并行探索”设计,集成了预设滤镜、流行提示模板,并支持上传个人形象用于重复创作,提升了探索效率。
在开发者侧,GPT Image 1.5已同步通过API开放。新API在保持能力一致的同时,图像输入与输出的整体成本较上一代下降了约20%,为其在商业场景中的规模化应用提供了条件。OpenAI特别指出,新模型在品牌元素保持和图像结构稳定性方面表现优异,适合用于市场营销、品牌视觉设计及电商产品图生成等场景。
尽管在多个第三方盲测榜单(如LMArena、Artificial Analysis)上,GPT Image 1.5在文生图和图像编辑任务中均取得了第一名的成绩,超过了谷歌的Nano Banana Pro,但社区实测反馈揭示了更细致的差异。
有评测指出,在追求极致写实照片质感的场景下,Nano Banana Pro生成的图像“更像手机拍的”,而GPT Image 1.5仍带有一定的“AI生成观感”。在生成速度上,尽管GPT Image 1.5比自身前代快4倍,但在同等情况下的生成耗时可能仍高于Nano Banana Pro。此外,Nano Banana Pro支持生成最高4K分辨率及更多样的画幅比例,而GPT Image 1.5目前最高支持1536×1024分辨率。
因此,两者的定位差异逐渐清晰:GPT Image 1.5更像一个专注于多轮精准编辑、指令遵循和一致性的“创意搭档”,尤其适合需要反复修改、保持主体一致的创作流程;而Nano Banana Pro则在写实质感、高分辨率和生成速度等“生产指标”上更显优势,更像一个“专业素材生产机”。
GPT Image 1.5的发布,是OpenAI在图像生成领域一次重要的“补课”与升级。它没有追求天马行空的“一次性惊艳”,而是将重点放在了编辑一致性、指令遵循和文本渲染等影响“可用性”的基础能力上。这标志着AI图像工具正从激发灵感的玩具,转向可融入实际生产流程的实用工具。
随着独立创作入口的普及、API成本的下调,以及与迪士尼等公司的IP合作展开,OpenAI正在构建一个更完整的AI图像生态。尽管在中文处理、极致写实感等方面仍有提升空间,但GPT Image 1.5无疑为AI图像的“可控创作”时代奠定了新的基石。
文章来源:本文综合自OpenAI官方发布及多家科技媒体于2025年12月17日的评测报道,包括但不限于“赛博禅心”、“AI小小将”等。模型详细信息及API文档请参阅OpenAI官方平台。