LPM 1.0：让AI角色“活”起来的视频模型

摘要：米哈游创始人蔡浩宇创立的AI公司Anuttacon，近日正式公开了其首个视频生成模型——LPM 1.0。这是一个专注于生成虚拟角色表演的模型，能够让人工智能角色实时地说话、唱歌、倾听并做出细腻的情感反应，同时保持长时间互动中角色形象的一致性。这项技术旨在解决当前AI视频生成中表现力、实时性与长时一致性难以兼顾的核心难题，为未来沉浸式的虚拟交互体验提供了新的可能性。

技术揭秘：如何让AI学会“演戏”？

LPM 1.0的全称是“Large Performance Model”，顾名思义，它是一个专注于“表演”的模型。其核心目标是生成能够像真人一样进行实时交互的视频角色。这背后需要克服一个被称为“性能三元悖论”的挑战：即很难同时让一个视频模型兼具卓越的表现力、低延迟的实时性，以及无限时长下的角色一致性。

为了突破这一瓶颈，Anuttacon的研究团队从数据和模型架构两方面入手：

构建以人为中心的数据集：团队收集并构建了包含表演理解、身份感知等多种信息的多模态数据集。这使得模型学习的不是简单的口型匹配，而是人类在交流时细微的表情变化、肢体语言和情绪节奏。
采用扩散Transformer架构：模型拥有170亿参数，利用扩散Transformer强大的时空建模能力，将角色的表情、口型、动作以及视频帧之间的连续关系进行统一学习。这使得模型能理解如何让一系列动作和表情看起来更自然、连贯。
设计流式生成系统：为了实现实时交互，团队专门开发了一个“在线流式生成器”。这是一个因果式的生成系统，能够实现低延迟的实时视频流生成，支持用户与AI角色进行像视频通话一样的双向对话。

核心能力：从“会演”到“会互动”

LPM 1.0不仅仅是一个视频生成工具，它更像是一个为虚拟角色注入“灵魂”的引擎。其展示出的核心能力可以概括为以下几个方面：

细腻的情绪演绎：模型能够生成非常丰富和细腻的面部表情与微动作。例如，在演示中，角色可以在几秒内展现出从犹豫、迟疑到下定决心的一系列心理变化，并通过抿嘴、叹气等细微动作传达出来。
主动的倾听与反应：这是LPM 1.0的一大亮点。当角色处于“聆听”状态时，它并非静止不动，而是会根据听到的语音内容实时产生相应的表情反馈，如惊讶、疑惑、赞同或不耐烦，使得交互过程极具临场感。
全双工实时对话：用户可以通过麦克风直接与屏幕中的AI角色对话。角色能够一边聆听并做出反应，一边在轮到它说话时，根据生成的语音内容同步匹配口型和表情，实现真正的实时互动。
无限长的身份一致性：模型解决了长视频生成中角色形象容易“崩坏”或突变的问题。在官方演示中，即使生成长达45分钟的对话视频，角色的外貌、声音和性格特征也能保持稳定。

未来展望：不止于游戏的“虚拟生命”

LPM 1.0的诞生并非偶然。其创始人蔡浩宇早已公开表示，AIGC将彻底改变游戏开发行业。他认为，未来只有顶尖的天才团队和利用AI工具的业余爱好者才有制作游戏的意义，并曾因此建议普通开发者考虑转行。Anuttacon公司的最终目标，正是利用人工智能（AGI）技术创造全新的、智能且引人入胜的虚拟世界体验。

因此，LPM 1.0的潜在应用场景远不止于制作游戏过场动画：

下一代游戏NPC：游戏中的非玩家角色（NPC）将不再是重复固定对话的木偶，而是能够记住玩家、拥有情绪并做出智能反应的虚拟伙伴，极大提升游戏的沉浸感和叙事可能性。
互动娱乐与社交：可以用于创建虚拟偶像、AI伴侣或个性化的互动故事，用户能够与拥有持续人设和记忆的虚拟角色进行长期、深度的交流。
教育与培训：提供可以进行情景对话、模拟复杂人际互动的AI角色，用于语言学习、客服培训或心理辅导等场景。
内容创作工具：为独立创作者和小型团队提供强大的角色动画生成能力，降低高质量动画内容的制作门槛，这与AI赋能游戏开发、实现“降本增效”的行业趋势相符。

目前，LPM 1.0模型尚未正式对公众开放。其技术细节已以论文形式发布在arXiv上，项目主页也已上线，感兴趣的开发者和研究者可以保持关注。

文章来源：本文基于量子位于2026年4月11日发布的文章《米哈游蔡浩宇AI公司首个视频模型曝光了》进行科普化改写，并综合引用了澎湃新闻、界面新闻等媒体关于蔡浩宇AI创业及游戏行业AI应用的相关报道。

Ai资讯 # Anuttacon # LPM 1.0

文章版权归作者所有，未经允许请勿转载。

歌尔CES 2026重磅新品解析：全彩光波导、肌电腕带交互、摄像头耳机引领XR创新浪潮

LPM 1.0：让AI角色“活”起来的视频模型

技术揭秘：如何让AI学会“演戏”？

核心能力：从“会演”到“会互动”

未来展望：不止于游戏的“虚拟生命”

即梦Octo：你的AI创意合伙人，如何重新定义视频创作？

OpenAI推出100美元ChatGPT Pro订阅：一份给普通用户的科普指南

相关文章

歌尔CES 2026重磅新品解析：全彩光波导、肌电腕带交互、摄像头耳机引领XR创新浪潮

ChatGPT群聊功能正式开放内测，开启多人协作AI新纪元

乐鑫发布基于ESP32-P4的智能机械臂开源方案，探索具身智能工业应用新路径

Kimi WebBridge 重磅上线：让 AI 接管浏览器，月之暗面重塑网页自动化玩法

暂无评论

最新文章

LPM 1.0：让AI角色“活”起来的视频模型

技术揭秘：如何让AI学会“演戏”？

核心能力：从“会演”到“会互动”

未来展望：不止于游戏的“虚拟生命”

即梦Octo：你的AI创意合伙人，如何重新定义视频创作？

OpenAI推出100美元ChatGPT Pro订阅：一份给普通用户的科普指南

相关文章

歌尔CES 2026重磅新品解析：全彩光波导、肌电腕带交互、摄像头耳机引领XR创新浪潮

ChatGPT群聊功能正式开放内测，开启多人协作AI新纪元

乐鑫发布基于ESP32-P4的智能机械臂开源方案，探索具身智能工业应用新路径

Kimi WebBridge 重磅上线：让 AI 接管浏览器，月之暗面重塑网页自动化玩法

暂无评论

最新文章

标签云