OpenAI“栗子”与“榛子”模型曝光,实测图像生成能力仍不敌谷歌“纳米香蕉”

Ai资讯3周前发布 大国Ai
228 0 0

核心摘要:2025年12月初,OpenAI两款代号为“Chestnut”(栗子)和“Hazelnut”(榛子)的神秘图像生成模型在测评平台悄然现身,被普遍认为是即将发布的GPT Image 2模型。然而,根据开发者社区的早期实测对比,这两款模型在图像质量、物理逻辑理解和面部生成真实感等方面,仍落后于谷歌已发布的Nano Banana Pro。这预示着,在AI图像生成赛道,谷歌凭借其原生多模态技术路线建立的领先优势,正迫使OpenAI加速追赶。

OpenAI“栗子”与“榛子”模型曝光,实测图像生成能力仍不敌谷歌“纳米香蕉”

近日,AI图像生成领域战火再起。在谷歌凭借Nano Banana Pro(Gemini 3 Pro Image)重新定义行业标准后,其竞争对手OpenAI的秘密武器也浮出水面。据新智元等多家媒体报道,代号为“Chestnut”(栗子)和“Hazelnut”(榛子)的两款OpenAI图像模型已匿名登陆Design Arena和LM Arena等第三方测评平台,展开内部测试。

业内普遍猜测,这两款模型正是OpenAI下一代图像生成系统GPT Image 2的组成部分,预计将随其旗舰大语言模型GPT-5.2一同发布。这一动作被视为OpenAI对谷歌强势进攻的直接回应。此前,谷歌Nano Banana Pro的发布不仅赢得了用户口碑,更在商业上取得了巨大成功,带动Gemini应用下载量超越ChatGPT,登顶多国应用商店榜首。

然而,根据早期测试者的反馈,OpenAI的新模型似乎仍未完全扭转竞争态势。开发者实测显示,在涉及复杂物理逻辑和精确控制的图像生成任务中,OpenAI的新模型表现不及谷歌的“纳米香蕉”。

一、实测对比:OpenAI新模型仍存短板

尽管“栗子”和“榛子”模型被观察到具备了类似Nano Banana Pro的“世界知识”,能够生成画质相近的名人自拍,并擅长在图像中嵌入代码等特殊功能,但在多项直接对比中暴露了差距。

一项关键测试是生成一张“展示物理色彩理论”的图片,要求呈现黄色香蕉和红色苹果前后放置,重叠部分显示出由黄红混合而成的橙色多孔表皮。测试结果显示,OpenAI的“栗子”和“榛子”模型均未能成功完成这一任务。而同样的提示词,谷歌的Nano Banana Pro早在发布时便已成功实现,并生成了多个符合要求的版本。这凸显了双方模型在理解复杂空间关系和物理混合效果上的能力差异。

在图像真实感,尤其是人物面部生成方面,OpenAI的新模型也被认为存在不足。有开发者指出,其生成的图像“面部看起来非常假”,质感像塑料。相比之下,Nano Banana Pro因其在“角色一致性”上的突破而备受赞誉,能够在多轮编辑中牢牢锁住人物的核心特征,避免“换衣变脸”的问题。

二、技术路线差异:原生多模态 vs. 模块化拼接

OpenAI与谷歌在图像生成能力上的差距,根源在于两者选择了不同的技术发展路径。

谷歌走的是“原生多模态”路线。这意味着,从模型训练之初,文本、图像、视频、音频等多种模态的数据就被混合在一起,让模型学习它们之间的本质关联。这种架构让模型能更直接地理解跨模态的语义和逻辑,无需经过“文本-图像”的转译中介,从而在需要精确控制、多物体属性绑定的任务上表现更出色,有效避免了“属性泄露”等问题。Nano Banana Pro正是这一路线的集大成者,它基于Gemini 3 Pro构建,整合了强大的推理能力和世界知识,能够生成准确、有用且符合物理逻辑的视觉内容。

而OpenAI长期以来采用的是“模块化拼接”策略,即让擅长不同任务的独立模型(如负责语言理解的GPT、负责图像生成的DALL·E系列)通过API协作。这种方式的优势在于可以快速整合各领域的最优解,在推理速度和迎合大众审美(如高饱和度、戏剧化光影)上可能更具优势。然而,在需要深度跨模态理解和因果逻辑的复杂图像生成任务上,这种拼接可能带来信息损耗和协调难题。

三、市场竞争白热化,OpenAI面临压力

谷歌Nano Banana系列的持续成功,给OpenAI带来了切实的压力。有报道指出,在谷歌Gemini 3发布后,ChatGPT的日均访问量出现了明显下滑。为此,OpenAI内部甚至拉响了“红色预警”,暂停了部分非核心业务,将资源集中投入到提升ChatGPT核心体验,特别是在图像生成能力上加速追赶。

此次“栗子”和“榛子”模型的测试,正是OpenAI反击的一部分。尽管初期评测显示其仍有不足,但开发者社区也注意到,相较于上一代GPT图像模型,新模型已经有了“巨大的飞跃”。同时,谷歌并未停步,据传其更轻量、更快的“Nano Banana Flash”版本也即将登场。

四、行业影响:AI图像生成进入“实用主义”时代

Nano Banana Pro的成功,标志着AI图像生成从追求“视觉惊艳”迈入了强调“精准可控”和“工作流整合”的实用主义新阶段。它不仅能通过自然语言指令进行精准编辑,还深度融合了谷歌搜索的知识库,能生成包含实时、准确信息的图表。其强大的多图融合与角色一致性保持能力,更是为品牌营销、内容创作等专业场景提供了可靠工具。

这场由谷歌引领的变革,正在迫使整个行业重新思考标准。无论是字节跳动的Seedream 4.0,还是生数科技的Vidu Q1,国内厂商也已迅速跟进,推出了对标产品。AI图像生成的竞争,已不再是单纯的画面美感比拼,而是生态能力、技术架构与用户体验的全面较量。

结语 OpenAI“栗子”与“榛子”模型的曝光,揭开了下一代图像生成大战的序幕。虽然目前实测显示其尚不足以撼动谷歌Nano Banana Pro的领先地位,但也表明了OpenAI正全力补足短板。随着GPT-5.2及其完整图像系统的正式发布,这场围绕“多模态理解”与“生成控制力”的巅峰对决,结局仍未可知。唯一可以确定的是,最终的赢家将是所有用户,我们将见证AI创作工具以超乎想象的速度变得更为强大和易用。


文章来源:综合自新智元《OpenAI神秘生图AI爆出!实测不敌谷歌一根香蕉,网友:就这?》、腾讯新闻《OpenAI用“大蒜”反击“可能倒闭”》、网易新闻《Nano Banana爆火背后,深聊谷歌多模态五大主线布局》、中国金融信息网《登顶苹果应用榜!谷歌火遍全网的“纳米香蕉”,凭啥击败ChatGPT?》等报道。

© 版权声明

相关文章

暂无评论

none
暂无评论...