摘要: 在近期红杉AI Ascent大会上,英伟达机器人研究负责人Jim Fan抛出重磅预判:机器人的突破路径将完整复刻大语言模型(LLM)的崛起史。他断言传统的视觉语言动作模型(VLA)已死,未来属于依托视频生成模型训练的“世界动作模型”;在数据获取上,耗时费力的遥操作将被人类第一视角视频预训练取代;而强化学习则将借道神经物理引擎突破环境限制。沿着这条“科技树”,Jim Fan预言机器人将在两三年内通过“物理图灵测试”,并于2040年前实现物理自动研究,迎来具身智能的真正终局。
2016年夏天,OpenAI的办公室里走来一位穿着亮皮夹克的人,他扛着一块刻有“献给Elon和OpenAI团队,献给计算与人类的未来”的金属托盘——那是世界上第一台DGX-1。当时的Jim Fan作为OpenAI的首位实习生,激动地冲上去签了名。谁能想到,那台即将进入计算机历史博物馆的机器,竟拉开了大模型席卷全球的序幕。
前OpenAI首席科学家Ilya Sutskever曾用一句话总结了那段狂飙突进的岁月:“如果你相信深度学习,深度学习也会相信你。”六年光阴,从GPT-3的预训练,到InstructGPT的对齐微调,再到用强化学习做推理——LLM蹚出了一条清晰的登顶之路。
如今,站在2026年的时间节点上,现任英伟达机器人研究主管的Jim Fan掷地有声地宣告:机器人可以完整复制这条路。
Jim Fan把这套跨领域的复刻逻辑称为“大平行”(The Great Parallel)。如果说LLM的三步走是预训练学规律、微调对齐任务、强化学习冲刺最后一公里;那么机器人只需依样画葫芦——将文本替换为物理世界的下一帧状态预测,将语言微调替换为动作微调,最后一公里同样交由强化学习。
为什么要抄作业?因为机器人目前实在太“笨”了。Jim Fan提出了一个直击灵魂的概念:物理图灵测试。想象一下,周日晚上你家刚办完派对一片狼藉,你吩咐“某人”去收拾并准备烛光晚餐。当你回家时,如果根本无法分辨这到底是人类保姆还是机器人干的,就算通过了测试。可现实呢?目前的机器狗踩到香蕉皮只会滑倒,做牛奶燕麦的机器人往往搞得一团糟。
阻碍机器人通过测试的最大桎梏,是数据。搞LLM的经常抱怨互联网的“化石燃料”要挖空了,但在Jim Fan看来,他们简直是被“宠坏了”。维基百科、YouTube里根本找不到机器人关节控制的连续数值信号,这些数据只能靠人类戴着VR头显、忍受着极低效的遥操作一点点喂给机器人。这种把人类当燃料的方式毫无扩展性可言。
过去三年,VLA(视觉语言动作模型)曾是机器人界的正统。但Jim Fan直言不讳:VLA本质上是个参数畸形的“LVAS”——绝大部分算力都给了语言理解,视觉和动作只能靠边站。这导致机器人听得懂“谁是泰勒·斯威夫特”,却搞不定物理世界的重力与摩擦。
既然旧的预训练范式走不通,新答案在哪?出乎所有人意料,解药竟然是AI视频生成模型。
当Sora、Veo这类视频模型在像素空间里预测下一帧时,物理规律并没有被硬编码进去,但重力、浮力、光影反射却在生成过程中自然涌现了。英伟达顺势推出了世界动作模型(WAM)——Dream Zero。它在推演几秒后的物理未来的同时,将高维的电机动作信号与视频帧同步解码。视觉和动作终于成了平起平坐的一等公民。视频预测准,动作就准;视频产生“物理幻觉”,动作就失败。Jim Fan当场宣判:VLA已死,世界动作模型长存。
解决了模型架构,数据采集的古老沉疴怎么破?遥操作的黄昏已经降临。就算把机器人手直接戴在人手上(如UMI),或者穿上英伟达最新的外骨骼Dex-OOI,依然太过笨重且有侵入感。
真正的终局,藏在人类无感的行为中。就像驾驶特斯拉或Waymo的司机,不知不觉就为FSD贡献了海量物理数据。英伟达给出的终极答案是EgoScale——全面押注人类以自我为中心的第一视角视频。
在这个框架下,99.9%的训练数据来自野外人类第一视角视频,零机器人数据参与;微调阶段仅仅用了50小时动捕数据加4小时遥操作数据。更让人振奋的是,研究者发现了一个属于灵巧度的“神经缩放定律”:预训练时长与验证损失之间呈现干净的对数线性关系——这正是LLM缩放定律在物理世界的完美复现。Jim Fan断言,未来一两年,遥操作占比将暴跌至几乎忽略不计,第一视角视频将成为机器人训练的主食。
到了强化学习的最后一公里,环境规模又成了拦路虎。前沿AI实验室能为写代码买上百万个沙箱,但谁也搭不起一百万个真实机器人工作站。
早期的解法是“仿真1.0”时代的数字孪生——在GPU上并行跑一万个物理环境,2小时灌完现实10年的训练量,再零样本迁移到现实。后来又演进出了无需1:1复刻的“数字表亲”和real2sim2real混合仿真模型(如让宇树机器人模仿C罗的ASAP框架)。
但下一步更疯狂:英伟达发布的Dream Dojo,直接把视频世界模型变成了一个神经物理引擎。不需要任何物理方程或图形引擎,输入动作信号,实时输出画面和状态,算力即环境,环境即数据。
沿着这张路线图,Jim Fan把机器人的未来比作《文明》游戏的科技树,还剩三大成就待解锁:
从2012年AlexNet勉强认出猫狗,到2026年AI探讨自动化研究,用了14年。再过14年,就是2040年。英伟达掌门人黄仁勋也曾明确指出:“AI的新一波浪潮是物理AI,由物理AI驱动的机器人技术将彻底改变行业。”
技术进步从来不是线性的,而是指数级跃迁。“如果你相信机器人,机器人也会相信你。”正如Jim Fan所言,我们这代人,生得太晚来不及探索地球,生得太早赶不上探索星空,但我们生得正是时候——去亲手解决机器人问题。
文章来源: [1] 英伟达Jim Fan深度分享:揭秘具身智能路线与障碍_澎湃新闻 [2] 机器人的“物理图灵测试”,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law_澎湃新闻 [3] 机器人时代已来!黄仁勋指向AI下一波浪潮:物理AI_财联社 [4] 宇树机器人可模仿C罗、科比!英伟达新模型赋予更强行动力_财联社