摘要: 2025年12月16日,阿里巴巴正式发布新一代通义万相2.6系列视频生成模型。该模型被官方称为“全球功能最全的视频生成模型”,其最大亮点是上线了国内首个支持角色扮演功能的视频生成能力。万相2.6在音画同步、多镜头生成、声音驱动等核心功能上实现全面升级,单次视频生成时长达到国内最高的15秒,并新增分镜控制功能,旨在大幅降低专业影视创作门槛,让普通用户也能便捷制作出电影级短片。
通义万相2.6系列模型此次升级的核心,是引入了业界瞩目的“角色扮演”(Reference-to-Video)功能,这在国内尚属首次。该功能允许用户上传一段包含特定角色(人物、动物或物体)外观和音色的参考视频,模型便能学习并提取该角色的视觉与声学特征。随后,用户只需输入文本提示词,即可生成由该角色“出演”的全新场景视频。
这意味着,普通用户可以轻松地将自己或任何指定角色“置入”AI生成的电影场景中。例如,上传一段个人视频后,输入“科幻悬疑风格”的提示词,万相2.6便能快速完成分镜设计、角色演绎与画面配音,生成一段让用户成为主角的影视级短片。这项技术革新被认为将深刻改变短剧创作、广告设计等领域的内容生产方式。
万相2.6并非单一功能模型,而是一个功能覆盖全面的系列。除了标志性的角色扮演(R2V),该系列还包括文生视频(T2V)、图生视频(I2V)以及图像生成(T2I)等模型的全面增强。其被冠以“全球功能最全”的称号,主要得益于以下几项关键能力的集成与提升:
支撑上述强大功能的,是万相2.6在模型技术上的创新。其采用多模态联合建模技术,能对输入的参考视频进行综合分析,同时学习其时序性的视觉特征(如主体情绪、姿态、多角度外观)和声学特征。在视频生成阶段,这些特征将作为控制条件,确保生成的角色从形象、动作到声音,都与参考源保持高度一致,实现“全感官全维度一致性迁移”。
对于分镜控制,模型通过深层语义理解,将零散的提示构建成具备完整故事线和叙事张力的多镜头段落,并在镜头切换中精准维持核心元素的一致性,从而输出专业级视频内容。
根据实测反馈,万相2.6在指令遵循、画面质感和多镜头连贯性上表现显著提升。分镜控制功能能够理解专业脚本术语,生成衔接流畅的叙事视频;角色扮演功能能较好地捕捉和迁移原角色的神态特征[来自文档]。当然,在极其复杂的多人互动场景中,生成效果可能仍与真人表演存在细微差距,但已较前代模型有明显进步。
该模型已面向公众开放体验。个人用户即日起可直接通过通义万相官网免费使用。企业及开发者可通过阿里云百炼平台调用模型API,集成至自身业务系统中。此外,阿里旗下的千问APP也将在近期上线万相2.6模型,提供更丰富的创意玩法。
万相2.6的发布,标志着国产视觉生成模型进入了功能高度集成与快速迭代的新阶段[来自文档]。自今年9月发布音画同步的万相2.5后,阿里在短短三个月内再次实现重大突破,其图生视频能力此前已在权威评测中位居国内第一。
目前,通义万相模型家族已涵盖文生图、图像编辑、视频生成、角色扮演等超过10种视觉创作能力。万相2.6的推出,不仅为广告设计、短剧制作、短视频创作等专业领域提供了强大工具,更通过其易用的角色扮演和分镜功能,真正让“人人皆可当导演”的愿景照进现实,推动了前沿AI技术向大众应用的普惠。
文章来源:本文综合编译自央广网、国际金融报、杭州网、广州日报、上海证券报、中国网等多家媒体于2025年12月16日的报道,并结合一手体验信息进行整合撰写。