GPT Image 2团队曝光:13人4个月重塑“世界模型”

Ai资讯2小时前发布 大国Ai
12 0 0

摘要:2026年4月,OpenAI发布的ChatGPT Images 2.0以其在多语言文本渲染、复杂指令跟随和“思考”能力上的飞跃,震撼了整个AI与设计界。更引人注目的是,这支缔造了“断层式领先”成果的核心团队,半数为华人。其中,研究负责人(Research Lead)是一位来自中国无锡的“90后”天才——陈博远。本文将深入揭秘这支仅13人、用时4个月便实现技术封神的团队,讲述他们如何从底层重构架构,将图像生成从“渲染工具”推向“视觉系统”,并探讨其背后“世界模型”的野心与挑战。


当OpenAI首席执行官山姆·奥特曼在直播中,将GPT Image 2.0的进步类比为“从穴居人壁画到文艺复兴”、“从GPT-3到GPT-5的飞跃”时,全世界都看到了屏幕上那些令人难以置信的图像:精准无误的中文、日文、韩文海报,像素级还原的社交媒体UI截图,以及风格连贯的八格漫画。

但比技术演示更打动中国观众的,或许是一张为家乡“无锡”生成的多语言宣传海报。海报上,“太湖明珠”等字样以清晰的字体嵌入设计,毫无以往AI生图的“鬼画符”感。这张海报的生成者,正是团队的研究负责人陈博远(Boyuan Chen)。他不仅为家乡制作了海报,还为来自首尔和孟加拉的队友生成了精准的韩文和孟加拉语海报。这个细节,仿佛一个隐喻,预示了GPT Image 2.0的核心突破:让语言真正成为设计的一部分,而非贴上去的异物

而站在奥特曼身旁,主导这次“文艺复兴”的,是一张张年轻的东方面孔。

GPT Image 2团队曝光:13人4个月重塑“世界模型”

一、无锡天才的“世界模型”之路

陈博远,GPT Image 2.0的研究负责人,无锡天一中学国际部2017届毕业生。他的AI起点颇具故事性:高中参加科研夏令营时,他还不懂Python的基本语法,是结识的谷歌DeepMind资深研究员夏斐将他引入了AI世界。此后,他的人生轨迹一路加速:加州大学伯克利分校本科,麻省理工学院(MIT)电子工程与计算机科学(EECS)博士,并在谷歌DeepMind完成了关键实习。

他的学术研究极具前瞻性,始终围绕“让AI理解物理世界”这一核心。在MIT期间,他的代表作《Diffusion Forcing》提出了一种全新的序列生成范式,巧妙融合了自回归模型和扩散模型的优势。在谷歌实习期间,他以共同一作身份发表的《SpatialVLM》,致力于为视觉语言模型赋予定量空间推理能力,例如从一张2D图片中估算出“沙发与桌子之间通道的宽度是1.56米”。这项研究,正是“具身智能”和“世界模型”的关键基石。

2025年6月博士毕业后,陈博远加入OpenAI,迅速成为GPT图像生成的核心成员,并同时参与了Sora视频生成团队的工作。他形容GPT Image 2.0是一个“通用模型”或“图像领域的GPT”,底层架构已被“彻底重构”。尽管未透露是否采用扩散模型,但其研究背景强烈暗示,新模型成功融合了他在序列生成和空间推理上的深厚积累。

二、“13人天团”:跨界精英的胜利

团队负责人Gabriel Goh在社交平台上晒出的“AI全家福”透露,这支创造奇迹的团队核心成员约13人。评论区有网友惊叹:“怎么全是亚洲人?” 这支团队堪称“跨界天团”,汇聚了来自全球顶尖机构的科研与工程精英:

  • Jianfeng Wang(中科大博士):他解决了AI生图中著名的“10:10时钟”偏见问题,让模型能准确绘制2:25、3:30等任意时间,并精准执行“苹果在中心、杯子在右边”等复杂空间布局指令。他的工作让模型真正理解了对象的语义和功能,大幅缩小了用户意图与模型产出之间的差距。
  • Yuguang Yang(浙大/约翰斯·霍普金斯博士):拥有量化分析师、Alexa语音研究员、Bing搜索科学家等跨界经历。在GPT Image 2.0中,他展示了强大的信息图与PPT自动生成能力,例如将75页的GPT-3论文自动总结为7张清晰的幻灯片,为科研和商业分析节省大量时间。
  • 其他核心成员:包括来自Luma AI、参与过Dream Machine训练的Ayaan Haque;来自谷歌、参与过Imagen 3和Gemini多模态模型的Bing Liang;以及团队中的“提示词大师”Kiwhan Song,许多官方演示图都出自他手。

这支团队背景多元,但目标一致:不再满足于“抽卡”式的生图,而是要打造一个能理解复杂意图、完成系统性视觉任务的生产力工具。

三、技术跃迁:从“工具”到“系统”

GPT Image 2.0的突破并非单点提升,而是一次系统性跃迁,主要体现在三个维度:

  1. 多语言文本渲染的史诗级突破:这是最直观的震撼。模型对中文、日文、韩文、印地语、孟加拉语等非拉丁文字的渲染,首次达到了“精准无误”和“自然融入设计”的水平。无论是极小字号的中文,还是复杂排版的亚洲文字海报,都能清晰可读。这彻底改变了非英语内容创作者的工作流,过去需要在Photoshop中手动补字的步骤得以省去。
  2. “思考模式”开启视觉工作流:新模型引入了“思考模式”(Thinking Model)。在此模式下,模型会在生成前联网搜索实时信息、分析任务、进行推理,并能一次性生成最多8张在角色、道具、风格上保持高度连贯的图像。同时,它支持从3:1横幅到1:3竖版的多种比例自适应生成,构图会随比例智能重组,而非简单裁剪。这意味着,为一家抹茶店一次性生成适配Twitter、Instagram、LinkedIn等多个平台的营销海报组图成为可能。
  3. 细节控制与风格还原达到新高度:模型能生成在米粒上刻字的超精细图像,最高支持2K分辨率输出。在风格上,它能精准捕捉胶片颗粒、电影光影、漫画分镜节奏等细微特征,并有效避免了前代模型的“AI黄”色彩偏差,暗部细节和纹理处理更加扎实自然。

四、封神之后:隐忧与新时代

凭借这些突破,GPT Image 2.0在权威评测平台Arena.ai上,横扫所有图像生成榜单,并在文生图领域以创纪录的242分优势领先第二名,被媒体评价为“一骑绝尘”。

然而,封神之路也伴随着巨大的隐忧和挑战:

  • “有图有真相”时代终结:模型能像素级伪造社交媒体截图、产品拆解图甚至证件,已出现“库克加入小米汽车”等高仿假图传播。实测显示,它甚至能轻易篡改身份证上的人脸、姓名和号码,而生成的图片均无“AI生成”水印,甄别难度极大。
  • 仍存技术边界与幻觉:模型在需要精确物理世界模拟的任务(如折纸步骤图、魔方展开图)上仍有困难。生成的内容也可能出现事实性“幻觉”,如编造不存在的产品颜色或材质信息。
  • 访问与成本门槛:尽管基础版向所有用户开放,但免费次数有限。强大的“思考模式”仅向Plus、Pro和Business用户开放,且推理成本(Token消耗)较高。

结语

GPT Image 2.0的发布,不仅仅是一个工具的升级。它标志着AI图像生成正式从“玄学抽卡”的蛮荒时代,迈入了“可控、可用、可交付”的生产力时代。背后这支以陈博远为代表的华人主导的年轻团队,用4个月时间,将“世界模型”的愿景向前推进了一大步。

他们改变的,不仅是设计师的工作方式,更是整个社会对视觉内容真实性的信任基础。当奥特曼和他的“东方军团”稳稳接住设计师的饭碗时,一个由AI驱动、效率与风险并存的全新视觉时代,已然呼啸而至。


文章来源:本文综合编译自量子位、无锡博报、澎湃新闻、搜狐科技、财联社等媒体报道,并参考了OpenAI官方发布信息。

© 版权声明

相关文章

暂无评论

none
暂无评论...