摘要:2026年4月,OpenAI发布的ChatGPT Images 2.0以其在多语言文本渲染、复杂指令跟随和“思考”能力上的飞跃,震撼了整个AI与设计界。更引人注目的是,这支缔造了“断层式领先”成果的核心团队,半数为华人。其中,研究负责人(Research Lead)是一位来自中国无锡的“90后”天才——陈博远。本文将深入揭秘这支仅13人、用时4个月便实现技术封神的团队,讲述他们如何从底层重构架构,将图像生成从“渲染工具”推向“视觉系统”,并探讨其背后“世界模型”的野心与挑战。
当OpenAI首席执行官山姆·奥特曼在直播中,将GPT Image 2.0的进步类比为“从穴居人壁画到文艺复兴”、“从GPT-3到GPT-5的飞跃”时,全世界都看到了屏幕上那些令人难以置信的图像:精准无误的中文、日文、韩文海报,像素级还原的社交媒体UI截图,以及风格连贯的八格漫画。
但比技术演示更打动中国观众的,或许是一张为家乡“无锡”生成的多语言宣传海报。海报上,“太湖明珠”等字样以清晰的字体嵌入设计,毫无以往AI生图的“鬼画符”感。这张海报的生成者,正是团队的研究负责人陈博远(Boyuan Chen)。他不仅为家乡制作了海报,还为来自首尔和孟加拉的队友生成了精准的韩文和孟加拉语海报。这个细节,仿佛一个隐喻,预示了GPT Image 2.0的核心突破:让语言真正成为设计的一部分,而非贴上去的异物。
而站在奥特曼身旁,主导这次“文艺复兴”的,是一张张年轻的东方面孔。
陈博远,GPT Image 2.0的研究负责人,无锡天一中学国际部2017届毕业生。他的AI起点颇具故事性:高中参加科研夏令营时,他还不懂Python的基本语法,是结识的谷歌DeepMind资深研究员夏斐将他引入了AI世界。此后,他的人生轨迹一路加速:加州大学伯克利分校本科,麻省理工学院(MIT)电子工程与计算机科学(EECS)博士,并在谷歌DeepMind完成了关键实习。
他的学术研究极具前瞻性,始终围绕“让AI理解物理世界”这一核心。在MIT期间,他的代表作《Diffusion Forcing》提出了一种全新的序列生成范式,巧妙融合了自回归模型和扩散模型的优势。在谷歌实习期间,他以共同一作身份发表的《SpatialVLM》,致力于为视觉语言模型赋予定量空间推理能力,例如从一张2D图片中估算出“沙发与桌子之间通道的宽度是1.56米”。这项研究,正是“具身智能”和“世界模型”的关键基石。
2025年6月博士毕业后,陈博远加入OpenAI,迅速成为GPT图像生成的核心成员,并同时参与了Sora视频生成团队的工作。他形容GPT Image 2.0是一个“通用模型”或“图像领域的GPT”,底层架构已被“彻底重构”。尽管未透露是否采用扩散模型,但其研究背景强烈暗示,新模型成功融合了他在序列生成和空间推理上的深厚积累。
团队负责人Gabriel Goh在社交平台上晒出的“AI全家福”透露,这支创造奇迹的团队核心成员约13人。评论区有网友惊叹:“怎么全是亚洲人?” 这支团队堪称“跨界天团”,汇聚了来自全球顶尖机构的科研与工程精英:
这支团队背景多元,但目标一致:不再满足于“抽卡”式的生图,而是要打造一个能理解复杂意图、完成系统性视觉任务的生产力工具。
GPT Image 2.0的突破并非单点提升,而是一次系统性跃迁,主要体现在三个维度:
凭借这些突破,GPT Image 2.0在权威评测平台Arena.ai上,横扫所有图像生成榜单,并在文生图领域以创纪录的242分优势领先第二名,被媒体评价为“一骑绝尘”。
然而,封神之路也伴随着巨大的隐忧和挑战:
GPT Image 2.0的发布,不仅仅是一个工具的升级。它标志着AI图像生成正式从“玄学抽卡”的蛮荒时代,迈入了“可控、可用、可交付”的生产力时代。背后这支以陈博远为代表的华人主导的年轻团队,用4个月时间,将“世界模型”的愿景向前推进了一大步。
他们改变的,不仅是设计师的工作方式,更是整个社会对视觉内容真实性的信任基础。当奥特曼和他的“东方军团”稳稳接住设计师的饭碗时,一个由AI驱动、效率与风险并存的全新视觉时代,已然呼啸而至。
文章来源:本文综合编译自量子位、无锡博报、澎湃新闻、搜狐科技、财联社等媒体报道,并参考了OpenAI官方发布信息。