核心摘要: 2025年12月17日,OpenAI正式发布其新一代旗舰图像生成模型GPT Image 1.5,并全面升级ChatGPT的“Images”功能。此次更新聚焦于精准编辑、指令遵循与生成速度,旨在将AI图像生成从创意玩具转变为可靠的生产力工具。新模型在多轮编辑中能稳定保持画面细节一致性,生成速度最高提升4倍,API成本降低20%。尽管在部分基准测试中表现优异,但面对谷歌Nano Banana Pro的竞争,其在中文渲染、世界知识理解等方面仍面临挑战,标志着AI图像生成市场进入巨头正面交锋的新阶段。
面对谷歌Gemini 3及Nano Banana Pro带来的巨大市场压力,OpenAI的回应迅速而猛烈。CEO萨姆·奥特曼(Sam Altman)此前已内部发出“红色警报”(code red),要求团队全面加速产品节奏。原计划可能于2026年初发布的图像模型被紧急提前,于2025年12月17日正式推出GPT Image 1.5。这一举动被业界普遍解读为对谷歌的直接、战略性反击,两大科技巨头在AI图像生成领域的竞争已进入白热化。
新模型不仅驱动了ChatGPT内全新的“Images”独立创作空间,也同步通过API向开发者开放。OpenAI明确表示,此次升级的核心目标是提升模型的实用性和可靠性,使其成为真正可融入工作流程的生产力工具,而不仅仅是演示性质的玩具。
GPT Image 1.5最显著的进步在于其精准编辑与细节保留能力,解决了长期困扰AI图像编辑的“改一处,乱一片”的痛点。
1. 指哪打哪,细节不丢 新模型能够精准理解用户指令,仅修改图片中指定的部分,同时完美保持原图的光线、构图、色彩氛围乃至人物外貌等关键要素。官方演示显示,用户可以对同一张图片进行多达五轮的连续编辑——如添加元素、更换风格、局部转绘、最终移除主体——而核心视觉元素(如一只狗的形象)能始终保持高度一致。这种“数字资产完整性”的保持,对于品牌营销、电商产品图生成等需要多版本迭代的商业场景至关重要。
2. 编辑能力系统化 模型支持添加(Adding)、删减(Subtracting)、组合(Combining)、混合(Blending)和移位(Transposing)等多种编辑操作。OpenAI强调,这些能力并非孤立的功能堆砌,而是共同服务于一个核心目标:在执行复杂修改的同时,维持图像原有的视觉特质与结构逻辑。这使得ChatGPT Images正从“一次性生成工具”向一个可反复使用、可持续编辑的创意协作环境演进。
3. 速度与成本优化 GPT Image 1.5的图像生成速度相比前代提升了最高4倍,大幅改善了创作流畅度。同时,其API的输入和输出成本降低了20%,为企业用户提供了更高的成本效益。目前,包括Wix、Canva、Figma Weave在内的多家创意和电商平台已开始集成新模型。
除了精准编辑,GPT Image 1.5在多项基础能力上均有显著提升。
1. 更强的指令遵循与创意生成 模型在理解并执行复杂、多约束的指令方面更加可靠。例如,在生成一个包含36个指定物品的6×6网格图测试中,GPT Image 1.5能够完美呈现所有元素,而旧版模型则可能出现格子错乱的问题。在创意转换方面,模型能通过添加文本、调整布局等方式实现创意构想,同时保留重要细节。
2. 文本渲染能力补强 处理图像内密集、小字号文本一直是AI模型的难点。GPT Image 1.5在此方面取得了进步,能够更清晰地渲染英文文本,这对于生成海报、信息图等设计素材尤为重要。然而,多个实测指出,其在中文文本渲染上仍然存在明显缺陷,容易出现模糊、错字等问题,与谷歌Nano Banana Pro在中文处理上的优异表现形成鲜明对比。
3. 图像质量与真实感提升 新模型在渲染多人场景、小尺寸人脸时表现更为自然,整体画面的真实感和年代氛围感也有增强。例如,在生成“1970年代伦敦街景”的测试中,新版结果避免了旧版的“塑料感”,人物和场景更加逼真。
为降低使用门槛并优化创作流程,OpenAI在ChatGPT中推出了一个全新的专用 “Images”界面。用户可通过App侧边栏或直接访问 chatgpt.com/images 进入。
chatgpt.com/images
这个界面不再强制用户从零开始编写提示词,而是内置了数十种预设滤镜和热门提示词模板,覆盖从“3D魅力娃娃”到“复古动漫”等多种风格。这种设计让不擅长编写复杂指令的用户也能轻松开启创作,并快速进行多轮迭代和并行探索,体验更接近一个集成的“口袋创意工作室”。
GPT Image 1.5的发布,直接对标谷歌的旗舰产品Nano Banana Pro(基于Gemini 3 Pro Image),两者在核心能力上各有千秋,竞争激烈。
GPT Image 1.5的优势:
Nano Banana Pro的优势:
目前,在大模型竞技场(LMArena)的图像排名中,GPT Image 1.5已登顶榜首,但Nano Banana Pro紧随其后,差距微小。这场对决远未结束,它正推动整个行业向更精准、更可靠、更实用的方向加速迭代。
OpenAI GPT Image 1.5的发布,标志着AI图像生成技术正式迈入 “手术级精度”时代。它通过强化精准编辑、细节保留和指令遵循,正在将AI图像能力从激发灵感的“玩具”,转变为可预测、可控制、可融入生产流程的“生产力伙伴”。
然而,挑战依然存在。除了需要补齐在中文渲染等领域的短板,模型在科学准确性、极端复杂场景的稳定性方面仍有提升空间。OpenAI官方也承认,未来版本在风格一致性和多语言支持上仍需努力。
对于创作者、营销人员和开发者而言,GPT Image 1.5的到来意味着更强大的工具选择。随着API的开放和成本的下降,预计将催生更多企业级应用和创新。AI图像生成的竞争已从单纯的“画得好不好看”,升级为“能否理解世界、能否精准执行、能否融入工作流”的全方位较量。OpenAI与谷歌的这场巅峰对决,无疑将为整个行业和所有用户带来更快的技术进步和更优质的服务。
文章来源: 本文综合自OpenAI官方公告及多家科技媒体评测,包括量子位、AI寒武纪等,于2025年12月17日发布。