摘要: 阿里巴巴于2025年12月16日正式发布新一代通义万相2.6系列模型,该模型在专业影视制作与图像创作领域实现多项突破性升级。其核心亮点在于推出了国内首个支持“角色扮演”功能的视频生成能力,并集成了音画同步、智能多镜头生成与声音驱动等核心技术,被官方称为目前全球功能覆盖最全面的视频生成模型之一。新模型将单次视频生成时长提升至国内最高的15秒,并新增智能分镜控制功能,显著降低了专业级视频内容的创作门槛,让普通用户也能便捷地生成具备电影级运镜和连贯叙事的短片。
此次万相2.6的升级,标志着AI视频生成从“描述画面”向“控制角色”的关键跨越。其最受瞩目的“角色扮演”功能,允许用户上传一段包含人物、动物甚至物体的参考视频,模型能精准提取其中角色的外观特征与音色特点。
这意味着,创作者可以赋予一个数字形象以“演员”的身份。例如,用户可以上传自己的视频,然后通过提示词让“自己”在科幻悬疑短片中担任主角,模型将自动完成分镜设计、角色演绎与画面配音。该功能支持单人表演、多人互动及人与物合拍,为虚拟IP打造、广告代言人快速生成、个性化短剧制作等场景提供了前所未有的高效工具。
万相2.6的先进性不仅在于角色控制,更在于其实现了从画面到声音的全维度一致性迁移。模型通过多模态联合建模技术,能同步学习参考视频中具有时序信息的主体情绪、姿态、多角度视觉特征,以及音色、语速等声学特征。这使得生成的视频中,角色的口型动作能与语音内容精确对应,即使在多人对话场景中,不同角色的音色也能清晰区分,避免了早期AI视频常见的“音画不同步”和“人声机械感”问题。
另一项重大升级是“智能分镜控制”。过去,AI模型大多只能生成单一镜头,复杂的多镜头叙事需要人工逐个生成并剪辑,效率低下且难以保持角色一致性。万相2.6能够理解用户通过简洁文本传达的叙事意图,自动规划镜头数量、景别切换和时长分配,生成包含多个镜头的连贯故事视频。在镜头切换过程中,模型能有效保持核心主体、场景布局和环境氛围的统一,大幅减少了人物变形、换脸等跳戏问题,实现了“导演级”的叙事能力。
在基础性能上,万相2.6相比前代也有显著提升。其单次视频生成时长最高可达15秒(文生视频/图生视频模式),为承载一个具备起承转合的微型故事提供了可能。画质、音效及对用户指令的遵循能力也得到进一步优化。
这些升级共同作用,极大地解放了创作生产力。对于短视频创作者,几乎可以直接生成一条完整的平台级内容;对于广告、短剧等专业团队,则可以快速生成风格统一、叙事完整的视频样片,将精力更多地集中于创意构思而非重复的剪辑与配音工作。
万相2.6的发布,预计将在多个领域催生刚需应用场景,包括但不限于短视频创作、广告营销、影视前期预演、虚拟IP内容生产以及在线教育视频制作等。
目前,万相2.6系列模型已同步上线阿里云百炼平台和通义万相官网,供企业和个人用户体验。据悉,阿里旗下的千问APP也将于近期上线该模型,并提供更丰富的互动玩法。万相模型家族目前已支持文生图、图像编辑、文生视频、角色扮演等超过10种视觉创作能力。
文章来源: 综合自央广网、广州日报大洋网、国际金融报及阿里官方发布信息。