摘要: 2025年12月16日,阿里巴巴集团旗下通义实验室正式发布其视觉生成模型“通义万相”的2.6版本。此次更新的核心亮点是推出了业界领先的“角色扮演”视频生成功能,该功能能够基于参考视频提取角色的外观、音色与动作特征,并在新生成的视频中保持角色一致性,有效解决了AI视频生成中长期存在的角色一致性问题。同时,阿里旗下的C端AI应用“通义千问”App作为首发平台,同步上线了基于该能力的“AI小剧场”产品功能,为用户提供了模板化、易操作的视频创作体验,支持免费生成最长15秒的1080P视频。
长期以来,角色一致性是视频生成领域的一个关键技术瓶颈,指在多镜头或长序列视频中,同一角色在外观、声音和动作上难以保持连贯和统一。这一问题直接影响了AI生成视频的叙事连贯性与专业应用潜力。此前,OpenAI的Sora 2模型推出的“Cameo”功能被视为该领域的一个重要标杆。
阿里通义万相2.6版本推出的“角色扮演”功能,被业界认为是目前最接近“Cameo”能力的解决方案之一。该功能的技术实现路径是:用户只需提供一段包含目标角色的参考视频,模型便能从中智能提取角色的外观特征、音色以及标志性动作,随后根据用户输入的文本描述,生成全新的视频内容,并确保角色在所有画面中保持一致。
此外,该功能还实现了两大进阶能力:一是支持“多人合拍”,即让两个或多个已提取的角色在同一视频场景中进行互动,且各自保持特征一致;二是支持“智能分镜”,模型可根据一段复杂的剧情描述,自动将其拆解为多个镜头,并确保镜头切换间角色、场景与氛围的统一性。这标志着模型已能够生成具备连贯叙事能力的多镜头视频内容。
与万相2.6模型发布同步,阿里将其专业能力封装为面向普通消费者的产品功能,并在其旗舰AI应用“通义千问”App中首发上线,命名为“AI小剧场”。这一举措旨在将前沿的AI视频生成技术转化为用户触手可及的生产力工具。
“AI小剧场”的产品设计极大地简化了视频创作流程。用户无需理解复杂的技术参数,只需通过“选择模板-挑选角色-输入剧情描述”三步操作,即可快速生成一段个性化短视频。该功能还提供了丰富的互动玩法,例如支持与朋友“合拍”、与知名IP角色联动,以及一键“翻拍”社区内的热门视频模板,激发了用户的创作与分享热情。
目前,该功能为用户提供免费服务,支持生成最高1080P分辨率、最长15秒的视频,已于2025年12月17日正式向公众开放。用户可在千问App界面左下角找到“AI小剧场”的入口。
此次“角色扮演”功能的发布与集成,展现了阿里在大模型领域“模型+应用”端协同发力的战略布局。通义万相是阿里在视觉生成模型领域的核心产品,其2.5版本已于今年9月发布,是国内首个实现音画同步的视频生成模型,并在多项评测中取得领先成绩。
而通义千问App作为阿里面向消费者的统一AI助手入口,其背后调用的并非单一模型,而是整合了通义千问(语言模型)、通义万相(视觉模型)、通义百聆(语音模型)等一系列能力。这种将多个顶尖垂直模型能力通过统一应用交付给用户的模式,不仅提升了产品体验的丰富度与智能化水平,也为各模型提供了宝贵的真实用户场景和数据反馈,形成了技术研发与产品应用相互促进的良性循环。
通义万相2.6“角色扮演”功能的推出,标志着国内在AIGC(人工智能生成内容)视频领域的关键技术攻关取得了实质性进展。它使高质量、连贯叙事的短视频创作从专业领域走向大众化成为可能,预计将在短视频内容创作、个性化营销、互动娱乐、在线教育等多个场景催生新的应用模式。
从更宏观的视角看,阿里通过通义千问App将万相、百聆等模型能力集成,构建了一个多模态的C端AI应用生态。这体现了头部科技公司正从单一模型能力的竞争,转向构建以核心应用为载体的综合生态竞争。模型能力的持续迭代与用户端产品的快速集成,将成为未来AI产业竞争的关键。
文章来源:本文基于大国AI导航(daguoai.com)提供的原始新闻稿,并综合行业公开技术动态与产品信息进行核实与拓展编写。新闻稿的修改与优化遵循了事实核实、结构理顺、语言精炼的原则,以确保信息的准确性与传播的有效性。