英伟达Jim Fan揭秘人形机器人AI终局:抄LLM作业,押注视频模型,2040年通关物理图灵测试

Ai资讯4天前发布 大国Ai
222 0 0

摘要: 在近期红杉AI Ascent大会上,英伟达机器人研究负责人Jim Fan抛出重磅预判:机器人的突破路径将完整复刻大语言模型(LLM)的崛起史。他断言传统的视觉语言动作模型(VLA)已死,未来属于依托视频生成模型训练的“世界动作模型”;在数据获取上,耗时费力的遥操作将被人类第一视角视频预训练取代;而强化学习则将借道神经物理引擎突破环境限制。沿着这条“科技树”,Jim Fan预言机器人将在两三年内通过“物理图灵测试”,并于2040年前实现物理自动研究,迎来具身智能的真正终局。


2016年夏天,OpenAI的办公室里走来一位穿着亮皮夹克的人,他扛着一块刻有“献给Elon和OpenAI团队,献给计算与人类的未来”的金属托盘——那是世界上第一台DGX-1。当时的Jim Fan作为OpenAI的首位实习生,激动地冲上去签了名。谁能想到,那台即将进入计算机历史博物馆的机器,竟拉开了大模型席卷全球的序幕。

前OpenAI首席科学家Ilya Sutskever曾用一句话总结了那段狂飙突进的岁月:“如果你相信深度学习,深度学习也会相信你。”六年光阴,从GPT-3的预训练,到InstructGPT的对齐微调,再到用强化学习做推理——LLM蹚出了一条清晰的登顶之路。

如今,站在2026年的时间节点上,现任英伟达机器人研究主管的Jim Fan掷地有声地宣告:机器人可以完整复制这条路。

物理图灵测试:机器人的“大平行”革命

Jim Fan把这套跨领域的复刻逻辑称为“大平行”(The Great Parallel)。如果说LLM的三步走是预训练学规律、微调对齐任务、强化学习冲刺最后一公里;那么机器人只需依样画葫芦——将文本替换为物理世界的下一帧状态预测,将语言微调替换为动作微调,最后一公里同样交由强化学习。

英伟达Jim Fan揭秘人形机器人AI终局:抄LLM作业,押注视频模型,2040年通关物理图灵测试

为什么要抄作业?因为机器人目前实在太“笨”了。Jim Fan提出了一个直击灵魂的概念:物理图灵测试。想象一下,周日晚上你家刚办完派对一片狼藉,你吩咐“某人”去收拾并准备烛光晚餐。当你回家时,如果根本无法分辨这到底是人类保姆还是机器人干的,就算通过了测试。可现实呢?目前的机器狗踩到香蕉皮只会滑倒,做牛奶燕麦的机器人往往搞得一团糟。

阻碍机器人通过测试的最大桎梏,是数据。搞LLM的经常抱怨互联网的“化石燃料”要挖空了,但在Jim Fan看来,他们简直是被“宠坏了”。维基百科、YouTube里根本找不到机器人关节控制的连续数值信号,这些数据只能靠人类戴着VR头显、忍受着极低效的遥操作一点点喂给机器人。这种把人类当燃料的方式毫无扩展性可言。

VLA已死,世界动作模型接管赛博躯壳

过去三年,VLA(视觉语言动作模型)曾是机器人界的正统。但Jim Fan直言不讳:VLA本质上是个参数畸形的“LVAS”——绝大部分算力都给了语言理解,视觉和动作只能靠边站。这导致机器人听得懂“谁是泰勒·斯威夫特”,却搞不定物理世界的重力与摩擦。

既然旧的预训练范式走不通,新答案在哪?出乎所有人意料,解药竟然是AI视频生成模型

当Sora、Veo这类视频模型在像素空间里预测下一帧时,物理规律并没有被硬编码进去,但重力、浮力、光影反射却在生成过程中自然涌现了。英伟达顺势推出了世界动作模型(WAM)——Dream Zero。它在推演几秒后的物理未来的同时,将高维的电机动作信号与视频帧同步解码。视觉和动作终于成了平起平坐的一等公民。视频预测准,动作就准;视频产生“物理幻觉”,动作就失败。Jim Fan当场宣判:VLA已死,世界动作模型长存。

遥操作末日,EgoScale开启第一视角飞轮

解决了模型架构,数据采集的古老沉疴怎么破?遥操作的黄昏已经降临。就算把机器人手直接戴在人手上(如UMI),或者穿上英伟达最新的外骨骼Dex-OOI,依然太过笨重且有侵入感。

真正的终局,藏在人类无感的行为中。就像驾驶特斯拉或Waymo的司机,不知不觉就为FSD贡献了海量物理数据。英伟达给出的终极答案是EgoScale——全面押注人类以自我为中心的第一视角视频。

在这个框架下,99.9%的训练数据来自野外人类第一视角视频,零机器人数据参与;微调阶段仅仅用了50小时动捕数据加4小时遥操作数据。更让人振奋的是,研究者发现了一个属于灵巧度的“神经缩放定律”:预训练时长与验证损失之间呈现干净的对数线性关系——这正是LLM缩放定律在物理世界的完美复现。Jim Fan断言,未来一两年,遥操作占比将暴跌至几乎忽略不计,第一视角视频将成为机器人训练的主食

神经物理引擎与2040终局

到了强化学习的最后一公里,环境规模又成了拦路虎。前沿AI实验室能为写代码买上百万个沙箱,但谁也搭不起一百万个真实机器人工作站。

早期的解法是“仿真1.0”时代的数字孪生——在GPU上并行跑一万个物理环境,2小时灌完现实10年的训练量,再零样本迁移到现实。后来又演进出了无需1:1复刻的“数字表亲”和real2sim2real混合仿真模型(如让宇树机器人模仿C罗的ASAP框架)。

但下一步更疯狂:英伟达发布的Dream Dojo,直接把视频世界模型变成了一个神经物理引擎。不需要任何物理方程或图形引擎,输入动作信号,实时输出画面和状态,算力即环境,环境即数据。

沿着这张路线图,Jim Fan把机器人的未来比作《文明》游戏的科技树,还剩三大成就待解锁:

  1. 物理图灵测试(预计2-3年):单位能量输入对应单位劳动输出,真假难辨。
  2. 物理API:机器人舰队像软件一样被API调用,成为“原子打印机”或自动化湿实验室。
  3. 物理自动研究:机器人自主设计、制造、迭代下一代自己。

从2012年AlexNet勉强认出猫狗,到2026年AI探讨自动化研究,用了14年。再过14年,就是2040年。英伟达掌门人黄仁勋也曾明确指出:“AI的新一波浪潮是物理AI,由物理AI驱动的机器人技术将彻底改变行业。”

技术进步从来不是线性的,而是指数级跃迁。“如果你相信机器人,机器人也会相信你。”正如Jim Fan所言,我们这代人,生得太晚来不及探索地球,生得太早赶不上探索星空,但我们生得正是时候——去亲手解决机器人问题。


文章来源:
[1] 英伟达Jim Fan深度分享:揭秘具身智能路线与障碍_澎湃新闻
[2] 机器人的“物理图灵测试”,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law_澎湃新闻
[3] 机器人时代已来!黄仁勋指向AI下一波浪潮:物理AI_财联社
[4] 宇树机器人可模仿C罗、科比!英伟达新模型赋予更强行动力_财联社

© 版权声明

相关文章

暂无评论

none
暂无评论...