OpenAI发布GPT Image 1.5:精准编辑与多轮一致性成核心突破,图像生成进入“可控创作”时代

Ai资讯2周前发布 大国Ai
137 0 0

北京时间2025年12月17日,OpenAI正式推出其新一代旗舰图像生成模型GPT Image 1.5,并同步在ChatGPT中上线了独立的“Images”创作空间。此次升级并非简单的功能迭代,而是围绕“从生成到编辑”的完整工作流程进行了系统性重塑,标志着AI图像生成从“随机创作”向“精准可控”的关键转变。新模型在指令遵循、编辑一致性和生成速度上实现显著提升,并已开始向全球ChatGPT用户及API开发者全面开放。

OpenAI发布GPT Image 1.5:精准编辑与多轮一致性成核心突破,图像生成进入“可控创作”时代

一、核心升级:从“改一处,乱一片”到“指哪打哪”

GPT Image 1.5最受瞩目的改进在于其多轮编辑过程中的细节一致性保持能力。长期以来,AI图像编辑面临“局部修改引发整体漂移”的难题,即修改一处细节可能导致人物面部、构图、光照等全局特征失真。新模型通过训练优化,能更精准地区分“需改变部分”与“应保留部分”,在内部推理中锚定关键视觉元素。

官方演示案例生动展示了这一能力:从三张独立图片(两个男人和一只狗)开始,经过“合成派对场景”、“添加背景小孩”、“局部风格化(动漫、毛绒玩具)”、“统一换装”乃至最终“移除人物、仅保留狗并置入新场景”的五轮复杂编辑后,核心主体(狗)的形象特征始终保持稳定。这种“精准编辑,不崩全图”的特性,使其在功能性照片微调、外观试穿、风格化重构等需要反复迭代的场景中具备了真正的实用价值。

二、能力全景:系统性增强的“图像导演”

除了编辑一致性,GPT Image 1.5在多个维度实现了系统性增强:

  1. 更强的指令遵循与复杂构图能力:模型能更可靠地理解并执行多约束、复杂组合指令。在官方测试中,GPT Image 1.5能准确生成一个包含36个指定物品的6×6网格,而旧版模型则会出现格子错位、物品放错的问题。这种对空间布局和元素关系的精确把握,对于生成信息图、产品目录、教学材料等至关重要。
  2. 文本渲染能力大幅提升:文字生成一直是AI图像的难点。新模型在处理密集、小字号文本时表现更佳,能够将一段Markdown格式的文本清晰可读地渲染成报纸版面。不过,多个来源的实测指出,其在中文等非拉丁语系的文字渲染上仍有明显局限,效果远不如英文。
  3. 创意转换与降低提示词依赖:新模型对用户提示词复杂度的依赖有所降低。用户可以通过更自然的语言描述和内置的数十种预设风格模板(如电影海报、魅力娃娃、装饰素描等)快速启动创作,降低了使用门槛。同时,其创意转换能力增强,能通过改变或添加元素(如文本、布局)来实现创意转化,并保留重要细节。
  4. 生成速度与画质提升:相比上一代,GPT Image 1.5的生成速度最高提升至4倍,使图像创作体验更接近实时反馈。在整体画质上,模型在渲染大量小人脸、提升画面自然度与真实感方面也有改进。

三、产品与生态:独立入口与API开放

为配合新模型,OpenAI在ChatGPT中推出了独立的“Images”创作入口,而不再仅是对话中的附属功能。这个空间围绕“快速试错与并行探索”设计,集成了预设滤镜、流行提示模板,并支持上传个人形象用于重复创作,提升了探索效率。

在开发者侧,GPT Image 1.5已同步通过API开放。新API在保持能力一致的同时,图像输入与输出的整体成本较上一代下降了约20%,为其在商业场景中的规模化应用提供了条件。OpenAI特别指出,新模型在品牌元素保持和图像结构稳定性方面表现优异,适合用于市场营销、品牌视觉设计及电商产品图生成等场景。

四、实测对比与市场定位

尽管在多个第三方盲测榜单(如LMArena、Artificial Analysis)上,GPT Image 1.5在文生图和图像编辑任务中均取得了第一名的成绩,超过了谷歌的Nano Banana Pro,但社区实测反馈揭示了更细致的差异。

有评测指出,在追求极致写实照片质感的场景下,Nano Banana Pro生成的图像“更像手机拍的”,而GPT Image 1.5仍带有一定的“AI生成观感”。在生成速度上,尽管GPT Image 1.5比自身前代快4倍,但在同等情况下的生成耗时可能仍高于Nano Banana Pro。此外,Nano Banana Pro支持生成最高4K分辨率及更多样的画幅比例,而GPT Image 1.5目前最高支持1536×1024分辨率。

因此,两者的定位差异逐渐清晰:GPT Image 1.5更像一个专注于多轮精准编辑、指令遵循和一致性的“创意搭档”,尤其适合需要反复修改、保持主体一致的创作流程;而Nano Banana Pro则在写实质感、高分辨率和生成速度等“生产指标”上更显优势,更像一个“专业素材生产机”。

五、总结与展望

GPT Image 1.5的发布,是OpenAI在图像生成领域一次重要的“补课”与升级。它没有追求天马行空的“一次性惊艳”,而是将重点放在了编辑一致性、指令遵循和文本渲染等影响“可用性”的基础能力上。这标志着AI图像工具正从激发灵感的玩具,转向可融入实际生产流程的实用工具。

随着独立创作入口的普及、API成本的下调,以及与迪士尼等公司的IP合作展开,OpenAI正在构建一个更完整的AI图像生态。尽管在中文处理、极致写实感等方面仍有提升空间,但GPT Image 1.5无疑为AI图像的“可控创作”时代奠定了新的基石。


文章来源:本文综合自OpenAI官方发布及多家科技媒体于2025年12月17日的评测报道,包括但不限于“赛博禅心”、“AI小小将”等。模型详细信息及API文档请参阅OpenAI官方平台。

© 版权声明

相关文章

暂无评论

none
暂无评论...