一个7B参数的“小模型”,在自动驾驶与具身智能两大领域的29个权威基准测试中全部登顶,甚至超越了GPT-4o等闭源巨头。
大国Ai导航(daguoai.com) 最新获悉,小米具身智能团队正式发布全球首个开源的统一具身智能与自动驾驶基座模型——MiMo-Embodied。这一突破性成果在17个具身智能基准和12个自动驾驶基准上均实现SOTA(最先进水平)性能,标志着AI在物理世界通用能力方面取得重大进展。
长期以来,自动驾驶与具身智能被视为AI发展的两条平行路径。前者专注于户外高速动态环境下的车辆控制,后者则解决室内静态或低速场景的机器人操作问题。这种领域割裂导致专用模型“偏科”严重。
小米团队在技术报告《MiMo-Embodied: X-Embodied Foundation Model》中指出,物理世界的认知逻辑本质是统一的。无论是机器人拿取水杯还是汽车规避障碍,都需要对三维空间、因果关系和行为预测的深刻理解。
MiMo-Embodied的核心突破在于构建了统一的感知与推理架构。基于小米自研的MiMo-VL架构,该模型将物理世界交互能力解构为六大核心维度,实现了跨领域知识的正向迁移。
实现跨域统一的核心挑战在于如何避免“灾难性遗忘”——即模型在学习新领域知识时不遗忘旧领域技能。小米团队设计了一套四阶段渐进式训练策略。
阶段一:具身与通用知识奠基。模型通过海量通用图文数据和具身智能数据建立对物体与空间的初级认知,如同人类的“通识教育”。
阶段二:自动驾驶知识注入与混合监督。在引入自动驾驶数据的同时保留部分具身数据,确保模型在学习识别红绿灯时不会遗忘如何识别室内水杯。
阶段三:思维链推理的逻辑升华。模型不仅输出答案,还生成完整的思考路径,如“检测前方拥堵→左侧车道空闲→建议变道”,极大提升复杂场景下的鲁棒性。
阶段四:强化学习的终极打磨。通过针对性奖励函数,使模型输出更加精准、逻辑更严密。
在具身智能基准测试中,MiMo-Embodied在可供性预测、任务规划和空间理解三大核心能力上全面刷新记录。
特别是在RoboRefIt、Where2Place等专业基准上,该模型大幅领先其他具身智能模型,展现出在精细可供性推理方面的强大能力。
在自动驾驶测试中,MiMo-Embodied在环境感知、状态预测和驾驶规划三个维度表现卓越。在复杂的交互任务如转弯、绕障和变道中,性能提升最为显著,误差降低幅度达8%-10%。
值得关注的是,MiMo-Embodied仅凭70亿参数就在多项测试中超越了参数规模更大的模型,甚至超过了OpenAI的o1-mini和阿里通义千问320亿参数的QwQ-32B-Preview,实现了真正的“以小博大”。
在具身导航任务中,MiMo-Embodied在四个家庭场景中表现优异:定位卧室中的床、在餐厅找到吸尘器、在书房识别植物、在浴室定位马桶。
在操作任务中,模型展现了出色的可供性预测和空间推理能力,能够准确识别粉色勺子的可抓取把手、定位橙子之间的放置位置。
自动驾驶方面,MiMo-Embodied能够处理多样化场景并完成具有挑战性的任务,包括路口转弯、弯道掉头、跟车和变道超车等复杂驾驶决策。
MiMo-Embodied来自于新成立的“小米大模型Core团队”的初步尝试。该团队由小米具身智能团队共同完成,郝孝帅担任核心贡献第一作者,项目负责人为小米智驾团队首席科学家陈龙。
小米在AI领域的投入可谓大手笔。根据2024年报,小米计划投入70亿元以上资金用于AI研发,约占总研发经费的1/4,重点聚焦AI基础设施、大模型开发及应用场景搭建。
此前,小米已开源为推理而生的大模型Xiaomi MiMo,其70亿参数模型在多项权威基准测试中得分超过了OpenAI的闭源推理模型o1-mini,展现了小米在高效小模型研发上的技术实力。
MiMo-Embodied的出现标志着具身智能研究进入新阶段。这项工作的核心价值在于证明了跨领域知识融合的可行性,为构建真正的通用物理智能体奠定了基础。
业内人士认为,小米此次开源标志着AI发展从盲目追求参数规模转向注重算法效率和能力密度的理性发展期。通过技术创新,小模型同样可以实现高效率、大智慧,带来“性价比革命”。
对于消费者而言,这一技术突破意味着未来小米手机、汽车、AIoT设备等多品类硬件将获得更强大的端侧AI能力,在保护用户隐私的同时实现更个性化的智能体验。
参考资料
版权声明:本文为大国Ai导航(daguoai.com)原创编译整理,转载请注明出处。