LPM 1.0:让AI角色“活”起来的视频模型

Ai资讯3小时前发布 大国Ai
6 0 0

摘要:米哈游创始人蔡浩宇创立的AI公司Anuttacon,近日正式公开了其首个视频生成模型——LPM 1.0。这是一个专注于生成虚拟角色表演的模型,能够让人工智能角色实时地说话、唱歌、倾听并做出细腻的情感反应,同时保持长时间互动中角色形象的一致性。这项技术旨在解决当前AI视频生成中表现力、实时性与长时一致性难以兼顾的核心难题,为未来沉浸式的虚拟交互体验提供了新的可能性。

技术揭秘:如何让AI学会“演戏”?

LPM 1.0的全称是“Large Performance Model”,顾名思义,它是一个专注于“表演”的模型。其核心目标是生成能够像真人一样进行实时交互的视频角色。这背后需要克服一个被称为“性能三元悖论”的挑战:即很难同时让一个视频模型兼具卓越的表现力、低延迟的实时性,以及无限时长下的角色一致性

为了突破这一瓶颈,Anuttacon的研究团队从数据和模型架构两方面入手:

  1. 构建以人为中心的数据集:团队收集并构建了包含表演理解、身份感知等多种信息的多模态数据集。这使得模型学习的不是简单的口型匹配,而是人类在交流时细微的表情变化、肢体语言和情绪节奏。
  2. 采用扩散Transformer架构:模型拥有170亿参数,利用扩散Transformer强大的时空建模能力,将角色的表情、口型、动作以及视频帧之间的连续关系进行统一学习。这使得模型能理解如何让一系列动作和表情看起来更自然、连贯。
  3. 设计流式生成系统:为了实现实时交互,团队专门开发了一个“在线流式生成器”。这是一个因果式的生成系统,能够实现低延迟的实时视频流生成,支持用户与AI角色进行像视频通话一样的双向对话。

核心能力:从“会演”到“会互动”

LPM 1.0不仅仅是一个视频生成工具,它更像是一个为虚拟角色注入“灵魂”的引擎。其展示出的核心能力可以概括为以下几个方面:

  • 细腻的情绪演绎:模型能够生成非常丰富和细腻的面部表情与微动作。例如,在演示中,角色可以在几秒内展现出从犹豫、迟疑到下定决心的一系列心理变化,并通过抿嘴、叹气等细微动作传达出来。
  • 主动的倾听与反应:这是LPM 1.0的一大亮点。当角色处于“聆听”状态时,它并非静止不动,而是会根据听到的语音内容实时产生相应的表情反馈,如惊讶、疑惑、赞同或不耐烦,使得交互过程极具临场感。
  • 全双工实时对话:用户可以通过麦克风直接与屏幕中的AI角色对话。角色能够一边聆听并做出反应,一边在轮到它说话时,根据生成的语音内容同步匹配口型和表情,实现真正的实时互动。
  • 无限长的身份一致性:模型解决了长视频生成中角色形象容易“崩坏”或突变的问题。在官方演示中,即使生成长达45分钟的对话视频,角色的外貌、声音和性格特征也能保持稳定。
LPM 1.0:让AI角色“活”起来的视频模型

未来展望:不止于游戏的“虚拟生命”

LPM 1.0的诞生并非偶然。其创始人蔡浩宇早已公开表示,AIGC将彻底改变游戏开发行业。他认为,未来只有顶尖的天才团队和利用AI工具的业余爱好者才有制作游戏的意义,并曾因此建议普通开发者考虑转行。Anuttacon公司的最终目标,正是利用人工智能(AGI)技术创造全新的、智能且引人入胜的虚拟世界体验。

因此,LPM 1.0的潜在应用场景远不止于制作游戏过场动画:

  • 下一代游戏NPC:游戏中的非玩家角色(NPC)将不再是重复固定对话的木偶,而是能够记住玩家、拥有情绪并做出智能反应的虚拟伙伴,极大提升游戏的沉浸感和叙事可能性。
  • 互动娱乐与社交:可以用于创建虚拟偶像、AI伴侣或个性化的互动故事,用户能够与拥有持续人设和记忆的虚拟角色进行长期、深度的交流。
  • 教育与培训:提供可以进行情景对话、模拟复杂人际互动的AI角色,用于语言学习、客服培训或心理辅导等场景。
  • 内容创作工具:为独立创作者和小型团队提供强大的角色动画生成能力,降低高质量动画内容的制作门槛,这与AI赋能游戏开发、实现“降本增效”的行业趋势相符。

目前,LPM 1.0模型尚未正式对公众开放。其技术细节已以论文形式发布在arXiv上,项目主页也已上线,感兴趣的开发者和研究者可以保持关注。

文章来源:本文基于量子位于2026年4月11日发布的文章《米哈游蔡浩宇AI公司首个视频模型曝光了》进行科普化改写,并综合引用了澎湃新闻、界面新闻等媒体关于蔡浩宇AI创业及游戏行业AI应用的相关报道。

© 版权声明

相关文章

暂无评论

none
暂无评论...