更值得关注的是,MiniMax团队为评估模型“从零到一”构建完整应用的能力,开源了全新的VIBE基准。该基准通过创新的“Agent-as-a-Verifier”范式,自动评估生成应用在真实运行环境中的交互与视觉表现。在此综合测试中,M2.1平均得分高达88.6分,与Claude Opus 4.5(90.7分)处于同一梯队,并在Web(91.5分)、Android(89.7分)、iOS(88分)等子项上全面领先于Claude Sonnet 4.5。
三、 场景落地:从虚拟代码到物理世界的跨越
M2.1的强大能力不止于纸面分数,更体现在一系列生动的实际应用展示中。
在物理世界交互方面,模型展现出了出色的泛化能力,能够成功驱动机器狗等实体机器人完成指令,实现了从虚拟代码到物理操控的跨越。在创意与工程开发领域,模型基于React Three Fiber构建了支持7000+实例渲染与手势交互的“3D梦幻圣诞树”;用Rust语言打造了Linux安全审计工具;并用C++结合GLSL实现了复杂的光线追踪渲染效果。
MiniMax M2.1的卓越表现迅速获得了全球头部AI开发平台和合作方的认可。Factory AI (Droid) 联合创始人CTO Eno Reyes评价其“在部分场景下比头部闭源模型更好”,是开发者急需的优质选项。Fireworks的联合创始人Benny Chen则称赞其“精炼的交错推理机制显著压缩逻辑路径,让复杂任务得以更高精度完成”。