OpenAI发布GPT Image 1.5:图像生成迎来精准编辑时代,免费用户全面开放

Ai资讯2周前发布 大国Ai
170 0 0

摘要: 北京时间2025年12月17日,OpenAI正式推出新一代图像生成模型GPT Image 1.5,并面向所有ChatGPT免费用户开放。此次更新被视为对谷歌Nano Banana Pro等竞品的直接回应,核心升级在于解决了AI图像编辑中长期存在的“一改就废”痛点,实现了精准的局部编辑与多轮一致性保持。模型生成速度提升至前代的4倍,API调用成本降低约20%,标志着AI图像生成正从“玩具”向实用“工具”转变。

OpenAI发布GPT Image 1.5:图像生成迎来精准编辑时代,免费用户全面开放

一、核心升级:告别“抽卡”玄学,实现精准可控编辑

GPT Image 1.5最显著的进步在于其“精准编辑”能力。过去,用户使用AI修改图片细节时,常面临“牵一发而动全身”的窘境,例如只想调整人物发型,结果整张图片的光影、构图甚至人物面貌都发生剧变。新模型通过底层技术优化,能够更准确地理解并执行局部修改指令,同时保持画面其他元素的稳定性,如光线、构图和人物外貌特征在多轮编辑中得以连贯保留。

官方演示案例清晰地展示了这一能力:从将两个男人和一只狗合成到一张生日派对照片开始,经过“添加背景小孩”、“将左侧人物改为手绘动漫风格”、“为所有人换上指定卫衣”等多达五轮的连续编辑,核心元素(如狗的形象)始终保持一致,画面逻辑未出现崩坏。这意味着用户可以进行更复杂、更精细的图像创作与迭代,而无需担心编辑链条失控。

二、性能全面提升:速度、成本与指令遵循

除了编辑精度,GPT Image 1.5在多项关键指标上均有显著提升:

  1. 生成速度大幅提升:新模型的图像生成速度较上一代(GPT Image 1)提升了4倍,支持多图并行生成,大幅缩短了从构思到成图的等待时间,提升了创作效率。
  2. 成本进一步降低:OpenAI宣布,新版模型的图像输入与输出单价相较上一代降低了20%,使得个人用户和开发者能够在相同预算下完成更多图像生成任务,增强了服务的可及性与经济性。
  3. 指令遵循与文本渲染能力增强:模型在理解复杂、多层次的提示词方面表现更佳,能有效维持画面元素间的空间与语义关联。尤其在文本渲染上进步明显,能够更清晰、准确地生成图像中的英文文本,适用于海报、信息图等场景,但中文文本生成能力仍不稳定,存在错漏问题
  4. 细节呈现更完整:在人物肖像、复杂场景的细节表现上更为完整和自然,减少了以往AI绘图常见的面部失真、手部畸形等问题。

三、产品化整合:ChatGPT变身“迷你修图工作室”

为配合新模型上线,OpenAI对ChatGPT的产品界面进行了重要调整。在网页端和移动应用的侧边栏新增了独立的“图像”(Images)功能入口。这个专属创作空间并非简单的功能聚合,其设计更接近一个轻量级的创意工作室,内置了多种预设风格模板(如“复古胶片风”、“赛博朋克海报”)、常用提示建议及滤镜选项,旨在降低用户的使用门槛,即使不擅长编写复杂提示词的用户也能快速生成满意图像。

OpenAI首席执行官山姆·奥特曼(Sam Altman)在社交平台亲自演示,使用新模型生成了一组男性写真日历图像,引发了广泛关注。这一产品化思路表明,OpenAI正致力于将前沿的生成能力转化为直观、易用的消费级功能,使ChatGPT从一个以文本为核心的对话工具,向整合文本、图像、编辑于一体的多模态工作台演进。

四、直面竞争:与谷歌Nano Banana Pro的对比与市场定位

GPT Image 1.5的发布被广泛解读为OpenAI在“代码红色”(Code Red)战略下,对谷歌Gemini系列(特别是Nano Banana Pro)强势竞争的一次紧急反击。实测对比显示,双方各有优劣:

  • GPT Image 1.5的优势在于精准编辑和多轮一致性保持能力突出,在图像融合、复杂指令遵循(如生成指定内容的6×6网格)等方面表现稳定。其深度整合进ChatGPT的对话式工作流,也让连续创作和修改更为自然。
  • Nano Banana Pro的优势则体现在更高的输出画质(支持更高分辨率)、更优秀的中文文本渲染能力,以及在部分复杂推理任务(如解决数学问题)上可能更具优势。

行业观察指出,此次升级让AI图像工具的竞争焦点从“能否生成图像”转向“能否高质量、高一致性地编辑图像”。对于普通用户而言,GPT Image 1.5将“快速生成”、“精准编辑”和“易用性”结合,加上ChatGPT庞大的用户基础,有望吸引一批寻求一体化解决方案的用户。

五、技术团队与未来展望

OpenAI此次罕见地公布了GPT Image 1.5项目背后的核心团队名单。项目由Gabriel Goh(研发负责人)和Adele Li(产品负责人)主导。更引人注目的是,名单中出现了Sora负责人Bill Peebles和DALL-E系列缔造者之一Aditya Ramesh的名字,这强烈暗示了新模型可能在底层借鉴了Sora的“世界模拟”等先进技术,或为未来图像与视频生成的无缝融合做铺垫。

此外,OpenAI组建了规模庞大的“安全、诚信与策略”团队,由数十名专家负责内容过滤、防止滥用和确保合规,表明其在追求技术突破的同时,高度重视产品的安全性与社会责任。

展望未来,OpenAI计划在ChatGPT中引入更多视觉元素,例如在回答查询时自动生成图表、示意图,或在规划旅行路线时附上景点照片和地图,进一步强化其多模态和实用工具属性。同时,与迪士尼达成的为期三年的授权协议,意味着用户未来可能使用Sora和图像模型生成迪士尼、漫威等旗下角色内容,为IP与AI的结合打开了巨大的想象空间。

文章来源:本文综合自中关村在线、站长之家、腾讯新闻、IT之家、网易科技等多家媒体于2025年12月17日的报道。

© 版权声明

相关文章

暂无评论

none
暂无评论...