核心摘要:香港大学数据科学实验室黄超教授团队近日开源了多智能体视频生成框架ViMax,其通过模拟“导演、编剧、制片人、视频生成器”的协同工作,实现了从一句话创意、小说或剧本到分钟级长视频的端到端自动化生成,有效解决了长视频叙事规划与视觉一致性的核心难题,标志着AI视频生成从“片段拼接”迈向了“系统化创作”的新阶段。
在AI视频生成领域,以Sora、Runway为代表的模型虽能产出惊艳的短视频片段,但面对需要复杂叙事和连贯视觉的长视频时,往往陷入“三秒魔咒”——角色“变脸”、场景跳跃、逻辑断裂。香港大学开源的ViMax框架,正是针对这一行业痛点提出的工程化解决方案。
ViMax并非一个单一的巨型生成模型,而是一个多智能体协作系统。它创新性地将传统影视工业的流水线数字化,通过多个专业化AI智能体的分工与协作,实现了真正的“自编自导自演”。用户仅需输入一个想法、一段小说或一个剧本,系统便能自动完成从故事构思、剧本创作、分镜设计、视觉生成到最终剪辑合成的全流程,输出具有连贯故事线和稳定视觉风格的长视频。
该项目在GitHub开源后迅速获得大量关注,截至发稿已收获超过1.4k星标,被视为AI视频生成迈向工业化应用的关键一步。
ViMax的核心竞争力在于其端到端的多智能体协同架构。它将复杂的视频制作任务分解为五个专业化阶段,每个阶段由专门的智能体负责,并由一个“导演智能体”进行全局统筹。
为了突破长视频生成的技术瓶颈,ViMax引入了两项关键技术。
第一,递归式叙事分解与RAG增强。 面对长剧本的“复杂度爆炸”问题,ViMax采用三层递归规划:将故事拆解为事件层(核心情节转折)、场景层(具体戏剧单元)和镜头层(具体拍摄指令)。同时,为解决分层导致的故事背景碎片化,系统集成了检索增强生成(RAG)技术。它会先解析原始文本建立全局知识库(角色关系、情节脉络),在规划每个局部镜头时,动态检索并融入相关全局信息,从而保证角色性格、情节逻辑在长叙事中不发生偏离。
第二,图网络驱动的视觉一致性方案。 为解决角色、场景“变脸”的连贯性难题,ViMax在规划阶段就构建了一个视觉元素依赖关系图。系统识别出所有镜头中共用的角色、场景等元素,并分析它们之间的依赖关系。在生成时,对没有依赖关系的镜头进行并行生成以提升效率;对有依赖关系的镜头(如同一角色的不同镜头),则强制以已生成的内容作为参考图像进行条件生成,而非仅依赖文本描述从头生成,从而确保了视觉元素的稳定性。对于同一场景的多角度镜头(如对话的正反打),系统还会生成过渡视频来校准空间几何关系,避免出现空间错乱。
ViMax提供了四种核心模式,以满足不同用户的创作需求:
作为一个开源框架,ViMax的最大优势在于其可定制性和灵活性。它本身不提供底层的大模型,而是作为一个“调度中枢”,允许开发者接入不同的AI服务(如GPT-4、Gemini用于剧本,Stable Diffusion、DALL·E用于图像,Sora、Veo用于视频)。这意味着企业和开发者可以基于ViMax的架构,搭建私有化、可控的视频生产管线。
当然,作为前沿探索,ViMax仍有发展空间。团队展望的未来方向包括:提升计算效率、增加用户交互编辑功能、支持多元文化叙事风格,以及整合音频(对白、音效、配乐)生成能力,以形成真正完整的影视制作闭环。
ViMax的出现,不仅为AI视频生成提供了从“碎片化”到“体系化”的工程范本,更预示着一种新的内容创作范式:专业级的影视制作,正以前所未有的低门槛和自动化程度,向每一个有故事的人敞开大门。
文章来源:综合自机器之心《港大开源ViMax火了,实现AI自编自导自演》、AIGC Studio《港大开源视频生成神器 ViMax》及多个技术社区评测。