模型以34B参数统一多种任务,支持高精度预测真实世界下一秒状态,已开源供全球开发者使用。
2025年10月30日,北京智源人工智能研究院推出开源多模态世界模型Emu3.5,该模型突破传统图像生成范畴,专注于理解和预测真实世界的动态变化。Emu3.5采用统一的Transformer架构,以“预测下一个世界状态”为核心目标,在物理直觉和因果推理方面展现出色能力。
与传统生成模型仅关注静态画面不同,Emu3.5能够理解空间关系、时间连续性和因果关系。这一特性使其在具身智能、视觉指导等需要现实世界知识的应用场景中具有独特优势。
Emu3.5能够生成真实的可交互三维世界,并支持第一人称视角探索。无论是现代客厅、北京天坛还是火星表面,模型都能根据文字描述创建连续、连贯的环境演化过程。
这一能力类似于李飞飞的World Labs项目,但Emu3.5特别强调环境的动态变化和物理真实性。例如,在探索火星场景时,模型能够准确呈现机器人轮胎与火山地形的交互细节,包括烟雾流动和熔岩分布。
在机器人任务指导方面,Emu3.5展现出精准的任务分解能力。以“教机器人叠衣服”为例,模型能够将复杂动作分解为合理步骤,并为每一步配图配文,顺序符合人类常识。
这种能力是机器人理解真实世界任务的前置条件,也是AI从虚拟走向物理世界的关键一步。随着技术的发展,这类模型有望成为各类智能体的“大脑”。
Emu3.5能够生成详细的操作步骤图解,如烹制虾仁西芹猪肉饺子的完整流程。模型自动拆解任务,为每个步骤提供示意图,使复杂技能的学习更加直观。
这一应用场景对于知识传递和技能培训具有重要意义,将抽象的文字描述转化为具体的视觉指导,降低了学习门槛。
Emu3.5采用统一的Transformer模型架构处理所有模态数据,将图文视频都转化为token序列。这种设计打破了传统AI模型为不同模态单独设计架构的限制。
模型通过“预测下一个token”来学习不同模态间的关系,将所有任务统一为Next-State Prediction(NSP),即预测下一个世界状态(包括视觉和语言)。
Emu3.5的训练数据包含相当于790年时长的视频资料,这些视频同时携带时间、空间、物理、因果和意图信息。视频作为最接近真实世界的数字化记录形式,为模型提供了丰富的世界运行规律样本。
通过分析这些包含世界本质元素的数据,Emu3.5学到了不仅是静态图像集,而是真实的世界经验和发展规律。
通过DiDA并行预测技术,Emu3.5的生成速度提高了约20倍,首次让自回归模型达到扩散模型级别的实用速度。这一技术突破为实时应用场景提供了可能性,如交互式虚拟环境构建和实时任务指导。
在国际传播领域,多模态世界模型有望增强内容生产的精准性和吸引力。如中国日报社已将AI技术应用于国际新闻稿件翻译和预编辑环节,提高海外受众的接受度。
Emu3.5的世界理解能力可以进一步帮助传播机构精准把握不同文化背景受众的认知特点,实现共情式传播。
中央企业正在推动AI大模型赋能媒体融合,如中国电信打造的融媒体平台实现AI算力驱动、媒资库统一调度的新模式。Emu3.5的世界预测能力可以为新闻内容创作提供更丰富的视觉化素材。
特别是在重大事件报道中,模型能够根据当前事态发展预测可能的结果,为记者提供报道方向的参考。
对于媒体工作者而言,Emu3.5有助于打破专业领域的认知壁垒。正如光明网总监战钊所言,不同领域之间的知识壁垒客观存在,尤其是在多学科交叉背景下。
模型的世界理解能力使其能够将专业术语转化为易理解的普通表述,增强各领域知识的传播渗透性。
尽管理念前沿,Emu3.5仍面临视觉质量不稳定、时序推理偶发错误等技术挑战。目前,其3D世界生成、具身智能和视觉指导功能尚未完全开放,实际效果有待进一步验证。
然而,Emu3.5代表了一种值得关注的研究方向:AI不应只追求画面精致度,而应真正理解世界运行规律。这种从“补全内容”到“补全世界”的转变,可能是实现通用人工智能的关键路径。
随着技术的不断成熟,Emu3.5类模型有望在自动驾驶、机器人控制、虚拟现实等领域发挥重要作用,推动AI从工具性向智能性转变。
模型官网: https://emuai.baai.ac.cn/pages/web/landingPage 论文: https://arxiv.org/pdf/2510.26583 资料来源:北京智源研究院技术报告、中国日报AI应用案例、央企AI新闻生产实践