π0.7:会“举一反三”的机器人大脑,通用人工智能的临界点已至?

Ai资讯2天前发布 大国Ai
206 0 0

一个从未见过空气炸锅的机器人,能根据指令自己摸索出烤红薯的步骤;一台没学过叠衣服的机械臂,能无师自通地完成整理。这不是科幻,而是AI模型π0.7带来的机器人“GPT-3时刻”。

2026年4月17日,由OpenAI投资的机器人初创公司Physical Intelligence发布了其最新模型π0.7。这个名称中的“π”,很容易让人联想到那个代表圆周率的无限不循环小数,象征着该公司探索通用机器人智能的无限可能。

与以往需要针对每个任务进行专门训练的机器人不同,π0.7展现出了惊人的“组合泛化”能力——它能像人类一样,将已掌握的简单技能重新组合,来应对从未见过的新任务。

这标志着机器人智能可能已经越过了从“专才”到“通才”的关键临界点。


01 智能涌现:当机器人学会“举一反三”

想象一下,你教会一个孩子“拿起”和“放入”两个动作,他就能自己完成“把玩具放进箱子”的任务。π0.7让机器人首次具备了这种类似人类的学习能力。

其核心突破在于,它不再需要为每一个具体任务收集海量的演示数据进行训练。

根据发布方的演示和论文,π0.7的涌现能力主要体现在四个方面:

开箱即用的灵巧操作:无需针对任务进行额外训练,就能完成制作咖啡、折叠衣物(包括最难整理的衣物)、为蔬菜水果去皮、更换垃圾袋等一系列需要高精度和复杂接触动力学的任务。

复杂的指令理解与泛化:能在完全陌生的厨房或卧室环境中,听懂并执行多步骤的开放指令。例如,它能理解“拿起那个最大盘子里的水果”或“拿起我用来喝汤的那个东西”这类包含复杂空间关系和语义指代的命令。

跨机器人本体泛化:这是最令人惊讶的能力之一。例如,在训练数据中完全没有UR5e型号机械臂折叠衬衫样本的情况下,π0.7成功控制该机械臂完成了叠衣任务,成功率高达85.6%。

这一表现几乎追平了经验丰富的人类操作员(成功率90.9%)。更神奇的是,它甚至为这台新机器人“发明”了更适合其机械结构的抓取策略。

组合任务泛化:这是“组合泛化”的集中体现。机器人能自主完成一系列训练数据中完全不存在的复合任务,例如:

  • 使用从未见过的空气炸锅烤红薯或贝果
  • 用抹布擦拭耳机和尺子
  • 操作旋钮和桌面风扇

这不再是简单的“多做几个任务”,而是像大语言模型那样,从已有数据中涌现出全新的、未被明确教导的能力

π0.7:会“举一反三”的机器人大脑,通用人工智能的临界点已至?

02 原理揭秘:数据“调味”比数据“清洗”更重要

π0.7为何能如此强大?其最核心的洞见并非复杂的模型架构,而是一套革命性的数据使用方法论多样化的数据需要多样化的“提示”

传统机器人训练就像只给模型一句“清理冰箱”的指令,信号单一而模糊。π0.7则为每段训练数据配上了丰富的“上下文标签”,形成一个四层提示结构:

  1. 任务指令:如“整理餐桌”。
  2. 子任务指令:如“拿起盘子”。
  3. 子目标图像:展示任务下一阶段理想状态的画面。
  4. 数据元数据:标记这段演示数据的质量评分、执行速度、是否有错误等。

这套方法带来了两个颠覆性改变:

首先,它让“垃圾数据”变废为宝。在机器人领域,研究人员长期以来致力于“数据清洗”,费力地筛选高质量演示、删除失败记录。

π0.7的实验表明,只要为数据打上质量标签,模型就能自行判断学习的方向。低质量或失败的数据不再有害,反而成了告诉模型“此路不通”的宝贵反面教材。

其次,它让“通才”首次超越了“专才”。在实验中,未经任何任务专项微调的π0.7,在制作咖啡、叠衣服、物品装箱这三个复杂任务上的表现,追平甚至超过了前代模型(π0.6)经过大量强化学习或监督微调得到的“专家模型”。

这意味着,一个通用的“大脑”已经能够匹敌为特定任务精心打造的“专家系统”。

03 技术架构:站在巨人肩膀上的简洁设计

π0.7的模型架构本身并非天马行空的创造,而是基于前代技术的优雅整合与关键创新。其总参数量约为50亿,主要由三部分组成:

  • 视觉-语言模型骨干:采用40亿参数的Gemma 3模型,负责理解摄像头画面和人类语言指令。
  • 动作专家模块:一个8.6亿参数的Transformer,使用“流匹配”技术直接生成连续、平滑的机器人动作序列,支持50Hz的高频实时控制。
  • 轻量级世界模型:从一个140亿参数的图像生成模型初始化而来。它的作用非常独特:不预测物理变化,只负责将任务指令“翻译”成成功时应该看到的理想画面,为决策提供视觉参考。

值得注意的是,π0.7巧妙地使用了“知识隔离”技术。确保从互联网海量数据中学到的通用知识(由VLM骨干掌握)不会被机器人动作数据“污染”,从而保持了强大的语义理解基础。

04 范式之争:VLA路线 vs. 世界模型路线

π0.7的发布,在机器人研究领域引发了一场关于技术路线的热议。近年来,以英伟达Cosmos为代表的“世界模型”路线备受瞩目。

该路线主张让机器人先学会在内心模拟和预测物理世界的演变,再基于这种“想象”进行规划决策,这非常符合人类的直觉。

然而,Physical Intelligence团队自2023年研发RT-2模型起,就坚定地押注了另一条路径:视觉-语言-动作模型

VLA路线的核心理念是,不需要让AI先学会“想象世界”。直接将一个已在互联网图文数据上预训练好的视觉-语言模型,与一个专门生成动作的模块连接,进行端到端训练,就足以让机器人学会智能操作。

π0.7的成功,为VLA路线提供了强有力的证明。它表明,通过更智能的数据使用方式(丰富的提示),VLA模型同样能实现甚至超越世界模型所追求的组合泛化与任务理解能力,且架构更为简洁高效。


文章来源与拓展阅读

本文基于量子位于2026年4月17日发布的报道《π0.7发布,VLA押出了机器人的GPT-3时刻》进行科普化改写。文中关于圆周率π的科学意义与历史,参考了科普中国等资料。

Physical Intelligence公司简称“π”,其目标正如圆周率π探索无限位数一样,旨在无限拓展机器人的通用智能边界。从阿基米德的几何逼近到超级计算机的万亿位计算,人类对π的探索永无止境;而对通用机器人智能的探索,也随着π0.7的出现,翻开了激动人心的新篇章。

© 版权声明

相关文章

暂无评论

none
暂无评论...