OpenAI发布GPT Image 1.5,图像生成与编辑进入“精准时代”

Ai资讯2周前发布 大国Ai
136 0 0

核心摘要: 2025年12月17日,OpenAI正式发布其新一代旗舰图像生成模型GPT Image 1.5,并全面升级ChatGPT的“Images”功能。此次更新聚焦于精准编辑、指令遵循与生成速度,旨在将AI图像生成从创意玩具转变为可靠的生产力工具。新模型在多轮编辑中能稳定保持画面细节一致性,生成速度最高提升4倍,API成本降低20%。尽管在部分基准测试中表现优异,但面对谷歌Nano Banana Pro的竞争,其在中文渲染、世界知识理解等方面仍面临挑战,标志着AI图像生成市场进入巨头正面交锋的新阶段。

OpenAI发布GPT Image 1.5,图像生成与编辑进入“精准时代”

一、 重磅发布:OpenAI以“红色警报”姿态反击谷歌

面对谷歌Gemini 3及Nano Banana Pro带来的巨大市场压力,OpenAI的回应迅速而猛烈。CEO萨姆·奥特曼(Sam Altman)此前已内部发出“红色警报”(code red),要求团队全面加速产品节奏。原计划可能于2026年初发布的图像模型被紧急提前,于2025年12月17日正式推出GPT Image 1.5。这一举动被业界普遍解读为对谷歌的直接、战略性反击,两大科技巨头在AI图像生成领域的竞争已进入白热化。

新模型不仅驱动了ChatGPT内全新的“Images”独立创作空间,也同步通过API向开发者开放。OpenAI明确表示,此次升级的核心目标是提升模型的实用性可靠性,使其成为真正可融入工作流程的生产力工具,而不仅仅是演示性质的玩具。

二、 核心升级:从“概率生成”到“手术级”精准编辑

GPT Image 1.5最显著的进步在于其精准编辑与细节保留能力,解决了长期困扰AI图像编辑的“改一处,乱一片”的痛点。

1. 指哪打哪,细节不丢 新模型能够精准理解用户指令,仅修改图片中指定的部分,同时完美保持原图的光线、构图、色彩氛围乃至人物外貌等关键要素。官方演示显示,用户可以对同一张图片进行多达五轮的连续编辑——如添加元素、更换风格、局部转绘、最终移除主体——而核心视觉元素(如一只狗的形象)能始终保持高度一致。这种“数字资产完整性”的保持,对于品牌营销、电商产品图生成等需要多版本迭代的商业场景至关重要。

2. 编辑能力系统化 模型支持添加(Adding)、删减(Subtracting)、组合(Combining)、混合(Blending)和移位(Transposing)等多种编辑操作。OpenAI强调,这些能力并非孤立的功能堆砌,而是共同服务于一个核心目标:在执行复杂修改的同时,维持图像原有的视觉特质与结构逻辑。这使得ChatGPT Images正从“一次性生成工具”向一个可反复使用、可持续编辑的创意协作环境演进。

3. 速度与成本优化 GPT Image 1.5的图像生成速度相比前代提升了最高4倍,大幅改善了创作流畅度。同时,其API的输入和输出成本降低了20%,为企业用户提供了更高的成本效益。目前,包括Wix、Canva、Figma Weave在内的多家创意和电商平台已开始集成新模型。

三、 全面能力进化:不止于编辑

除了精准编辑,GPT Image 1.5在多项基础能力上均有显著提升。

1. 更强的指令遵循与创意生成 模型在理解并执行复杂、多约束的指令方面更加可靠。例如,在生成一个包含36个指定物品的6×6网格图测试中,GPT Image 1.5能够完美呈现所有元素,而旧版模型则可能出现格子错乱的问题。在创意转换方面,模型能通过添加文本、调整布局等方式实现创意构想,同时保留重要细节。

2. 文本渲染能力补强 处理图像内密集、小字号文本一直是AI模型的难点。GPT Image 1.5在此方面取得了进步,能够更清晰地渲染英文文本,这对于生成海报、信息图等设计素材尤为重要。然而,多个实测指出,其在中文文本渲染上仍然存在明显缺陷,容易出现模糊、错字等问题,与谷歌Nano Banana Pro在中文处理上的优异表现形成鲜明对比。

3. 图像质量与真实感提升 新模型在渲染多人场景、小尺寸人脸时表现更为自然,整体画面的真实感和年代氛围感也有增强。例如,在生成“1970年代伦敦街景”的测试中,新版结果避免了旧版的“塑料感”,人物和场景更加逼真。

四、 产品体验革新:独立的“Images”创作空间

为降低使用门槛并优化创作流程,OpenAI在ChatGPT中推出了一个全新的专用 “Images”界面。用户可通过App侧边栏或直接访问 chatgpt.com/images 进入。

这个界面不再强制用户从零开始编写提示词,而是内置了数十种预设滤镜和热门提示词模板,覆盖从“3D魅力娃娃”到“复古动漫”等多种风格。这种设计让不擅长编写复杂指令的用户也能轻松开启创作,并快速进行多轮迭代和并行探索,体验更接近一个集成的“口袋创意工作室”。

五、 市场对决:GPT Image 1.5 vs. Nano Banana Pro

GPT Image 1.5的发布,直接对标谷歌的旗舰产品Nano Banana Pro(基于Gemini 3 Pro Image),两者在核心能力上各有千秋,竞争激烈。

GPT Image 1.5的优势:

  • 指令遵循与编辑精度: 第三方评测机构Artificial Analysis指出,GPT Image 1.5在文本转图像和图像编辑方面位列第一,其指令遵循率高达90%,表现突出。在需要严格遵循复杂提示的测试中(如精细人像生成),其表现可能更稳定。
  • 多轮编辑一致性: 在保持多轮编辑中主体一致性的能力上,被广泛认为表现优异。
  • 成本与速度: API成本降低20%,且生成速度有显著提升。

Nano Banana Pro的优势:

  • 世界知识与逻辑理解: 被许多评测者认为更像一个“世界模型”,在需要理解物理规律、逻辑关系的任务中表现可能更聪明,例如生成科学准确的图表或逻辑自洽的复杂场景。
  • 高分辨率与文本渲染: 支持最高4K分辨率输出,且在多语言文本渲染,尤其是中文处理上,目前被认为大幅领先于GPT Image 1.5。
  • 多图融合能力: 具备强大的多图像处理能力,最多可将14张输入图片融合成协调的输出。

目前,在大模型竞技场(LMArena)的图像排名中,GPT Image 1.5已登顶榜首,但Nano Banana Pro紧随其后,差距微小。这场对决远未结束,它正推动整个行业向更精准、更可靠、更实用的方向加速迭代。

六、 总结与展望

OpenAI GPT Image 1.5的发布,标志着AI图像生成技术正式迈入 “手术级精度”时代。它通过强化精准编辑、细节保留和指令遵循,正在将AI图像能力从激发灵感的“玩具”,转变为可预测、可控制、可融入生产流程的“生产力伙伴”。

然而,挑战依然存在。除了需要补齐在中文渲染等领域的短板,模型在科学准确性、极端复杂场景的稳定性方面仍有提升空间。OpenAI官方也承认,未来版本在风格一致性和多语言支持上仍需努力。

对于创作者、营销人员和开发者而言,GPT Image 1.5的到来意味着更强大的工具选择。随着API的开放和成本的下降,预计将催生更多企业级应用和创新。AI图像生成的竞争已从单纯的“画得好不好看”,升级为“能否理解世界、能否精准执行、能否融入工作流”的全方位较量。OpenAI与谷歌的这场巅峰对决,无疑将为整个行业和所有用户带来更快的技术进步和更优质的服务。


文章来源: 本文综合自OpenAI官方公告及多家科技媒体评测,包括量子位、AI寒武纪等,于2025年12月17日发布。

© 版权声明

相关文章

暂无评论

none
暂无评论...