【摘要】
Project Genie是Google
DeepMind推出的实验性研究原型,基于
Genie 3通用世界模型构建,支持通过文本提示或图像输入实时生成可交互的720p三维环境。该系统采用自回归架构逐帧动态渲染场景,具备约一分钟的视觉记忆 persistence,允许用户通过自然语言实时修改环境物理参数。目前该工具已向美国地区Google AI Ultra订阅者(18周岁以上)开放限量测试,单次会话限制60秒,主要用于AI代理训练、机器人仿真及交互式内容原型开发。
一、技术定义与核心架构
Project Genie并非传统游戏引擎,而是基于世界模型(World Model)范式构建的生成式AI系统。世界模型指能够对环境建立内部隐式表征、预测未来状态转移并支持行动规划的机器学习架构,区别于仅能生成静态媒体的扩散模型。
Genie 3架构:采用自回归生成框架(Auto-regressive Generation),基于Transformer架构逐帧预测下一时刻的视觉状态,而非依赖预渲染资产或显式3D重建(如NeRF或Gaussian Splatting)。该架构通过历史帧序列与当前用户输入(键盘指令、文本提示)条件化生成,实现实时输出。
多模态融合栈:系统集成三层技术模块——
空间一致性机制:通过视觉记忆窗口(Visual Memory Window)实现约60秒的物体持久化记忆。当用户视角离开某区域后返回,系统通过隐式记忆检索恢复物体状态,解决生成式场景中的离屏一致性难题。
二、功能矩阵与技术参数
Project Genie提供三类核心交互模式,覆盖从创建到修改的完整工作流:
• 世界草图(World Sketching)
支持文本描述或图像上传作为环境种子。输入”黏土动画风格的云端棉花糖城堡”或上传现实照片,Nano Banana Pro生成初始视觉锚点,Genie 3在此基础上展开可探索空间。
• 实时渲染管线(Real-time Rendering Pipeline)
输出规格:720p分辨率@24 FPS,延迟控制在交互阈值内。系统采用逐帧生成(Frame-by-frame Generation)策略,用户每执行一次位移指令,模型即时计算新视角画面,无需预加载完整场景。
• 可提示世界事件(Promptable World Events)
运行时通过自然语言指令动态注入环境变量。输入”暴雨”可实时改变天气系统;输入”添加飞行巨龙”则在当前场景实例化新智能体。该功能突破传统游戏引擎的静态脚本限制。
• 世界重混(World Remixing)
基于现有世界种子进行二次生成,支持风格迁移(如将写实森林转为赛博朋克色调)或物理规则修改(调整重力参数)。
• 视觉记忆 persistence
物体状态保持时长:约60秒。用户在黑板上书写文字后离开视角,一分钟内返回时笔迹保持;超出记忆窗口则可能发生状态漂移。
• 物理仿真层
基于观测数据学习软物理规则(Soft Physics),模拟光照、流体、刚体碰撞,但非硬编码物理引擎。物体交互遵循统计规律性而非严格牛顿力学。
• 角色实例化
支持在环境中生成可控制角色(Agent),通过键盘WASD/方向键进行第一人称或第三人称导航。
• 长时程一致性(Long-horizon Consistency)
可持续生成长达数分钟的连贯环境,远超前代Genie 2的10-20秒限制,支持复杂任务规划。
• 约束与限制
单次会话硬限制:60秒(受限于专用计算芯片资源分配);文本渲染能力受限,场景内可读文本通常直接复制自输入提示;复杂多智能体交互尚未支持。
• 输出录制
支持将探索过程录制为视频文件导出,用于演示或训练数据收集。
三、使用流程与操作界面
当前访问需满足:美国区域IP、Google AI Ultra订阅(月费$249.99)、年满18周岁。
创建会话流程:
-
提示工程:在World Sketching界面输入环境描述(支持中英文字符),定义场景风格、地理特征与初始光照条件;
-
角色设定:指定可控制实体的外观与初始位置,可选第一人称或第三人称视角;
-
生成等待:系统分配专用计算单元,耗时30-60秒完成初始帧序列生成;
-
实时探索:使用键盘控制位移,鼠标控制视角,系统以20-24 FPS实时渲染新视野;
-
动态干预:通过侧边指令面板输入环境修改指令(如”日落变黎明”),模型在不中断会话的情况下注入新变量;
-
终止与导出:达到60秒限制后会话自动结束,可选择下载录制片段或保存世界种子用于Remixing。
交互控制映射:
四、应用场景与目标受众
Project Genie定位并非消费级游戏平台,而是面向专业领域的仿真即服务(Simulation-as-a-Service)基础设施:
AI代理训练(Agent Training)
为DeepMind自研SIMA(Scalable Instructable Multiworld Agent)等智能体提供长时程决策训练场。世界模型允许代理在安全虚拟环境中试错,学习跨域泛化策略,规避真实世界数据采集成本。
机器人学仿真(Robotics Sim-to-Real)
构建低成本具身智能训练环境。研究人员可在Genie生成的仓库、家居场景中训练导航与操作策略,验证后再迁移至实体机器人,解决物理世界样本效率低下问题。
游戏原型验证(Game Prototyping)
独立开发者快速验证核心玩法循环(Core Loop)。通过文本描述生成可玩关卡,测试平台跳跃或探索机制,替代传统灰盒(Greyboxing)阶段的手工建模。
影视预演制作(Pre-visualization)
动态生成分镜(Previz)环境,导演可在虚拟场景中测试机位运动与叙事节奏,相比静态故事板提供更沉浸的空间感知参考。
教育模拟系统(EdTech Simulation)
构建可交互的沉浸式教学场景,如可进入的微观细胞结构、可操纵的历史战场环境,支持基于探索的学习(Exploratory Learning)。
文章来源:大国AI导航(daguoai.com)
版权说明:本文内容基于公开技术文档与官方发布信息整理,仅供资讯参考。Project Genie及相关技术归Google DeepMind所有,功能特性以官方最新公告为准。转载请注明出处。
关键词:Project Genie, Genie 3, World Model, AI Agent Training,
实时交互世界模型