阿里通义万相2.6视频模型发布:国内首个角色扮演功能上线,一键生成电影级短片

Ai资讯2周前发布 大国Ai
151 0 0

摘要: 2025年12月16日,阿里巴巴正式发布新一代通义万相2.6系列视频生成模型。该模型被官方称为“全球功能最全的视频生成模型”,其最大亮点是上线了国内首个支持角色扮演功能的视频生成能力。万相2.6在音画同步、多镜头生成、声音驱动等核心功能上实现全面升级,单次视频生成时长达到国内最高的15秒,并新增分镜控制功能,旨在大幅降低专业影视创作门槛,让普通用户也能便捷制作出电影级短片。

阿里通义万相2.6视频模型发布:国内首个角色扮演功能上线,一键生成电影级短片

一、核心突破:国内首个视频角色扮演模型落地

通义万相2.6系列模型此次升级的核心,是引入了业界瞩目的“角色扮演”(Reference-to-Video)功能,这在国内尚属首次。该功能允许用户上传一段包含特定角色(人物、动物或物体)外观和音色的参考视频,模型便能学习并提取该角色的视觉与声学特征。随后,用户只需输入文本提示词,即可生成由该角色“出演”的全新场景视频。

这意味着,普通用户可以轻松地将自己或任何指定角色“置入”AI生成的电影场景中。例如,上传一段个人视频后,输入“科幻悬疑风格”的提示词,万相2.6便能快速完成分镜设计、角色演绎与画面配音,生成一段让用户成为主角的影视级短片。这项技术革新被认为将深刻改变短剧创作、广告设计等领域的内容生产方式。

二、功能全景:集多项能力于一身的“全能型”选手

万相2.6并非单一功能模型,而是一个功能覆盖全面的系列。除了标志性的角色扮演(R2V),该系列还包括文生视频(T2V)、图生视频(I2V)以及图像生成(T2I)等模型的全面增强。其被冠以“全球功能最全”的称号,主要得益于以下几项关键能力的集成与提升:

  1. 音画同步与声音驱动:模型能提取参考视频中的音色、语速等声学特征,在生成新视频时实现口型、表情与声音的高度同步,带来更真实的观感。
  2. 智能分镜控制:这是本次另一大新增功能。万相2.6具备高层语义理解能力,可将用户简单的提示词(如“校园表白”)自动转换为包含多个镜头的专业分镜脚本。在生成过程中,它能确保不同镜头间的主体、场景、氛围保持连贯一致,实现电影级的叙事与运镜。
  3. 多人生成与长时长:模型支持生成包含单人、多人乃至人与物互动的复杂视频内容。同时,单次视频生成时长提升至15秒,为讲述更完整的故事提供了空间。

三、技术底座:多模态联合建模确保一致性

支撑上述强大功能的,是万相2.6在模型技术上的创新。其采用多模态联合建模技术,能对输入的参考视频进行综合分析,同时学习其时序性的视觉特征(如主体情绪、姿态、多角度外观)和声学特征。在视频生成阶段,这些特征将作为控制条件,确保生成的角色从形象、动作到声音,都与参考源保持高度一致,实现“全感官全维度一致性迁移”。

对于分镜控制,模型通过深层语义理解,将零散的提示构建成具备完整故事线和叙事张力的多镜头段落,并在镜头切换中精准维持核心元素的一致性,从而输出专业级视频内容。

四、应用体验与获取方式

根据实测反馈,万相2.6在指令遵循、画面质感和多镜头连贯性上表现显著提升。分镜控制功能能够理解专业脚本术语,生成衔接流畅的叙事视频;角色扮演功能能较好地捕捉和迁移原角色的神态特征[来自文档]。当然,在极其复杂的多人互动场景中,生成效果可能仍与真人表演存在细微差距,但已较前代模型有明显进步。

该模型已面向公众开放体验。个人用户即日起可直接通过通义万相官网免费使用。企业及开发者可通过阿里云百炼平台调用模型API,集成至自身业务系统中。此外,阿里旗下的千问APP也将在近期上线万相2.6模型,提供更丰富的创意玩法。

五、产业意义:推动AI视频创作走向普惠

万相2.6的发布,标志着国产视觉生成模型进入了功能高度集成与快速迭代的新阶段[来自文档]。自今年9月发布音画同步的万相2.5后,阿里在短短三个月内再次实现重大突破,其图生视频能力此前已在权威评测中位居国内第一。

目前,通义万相模型家族已涵盖文生图、图像编辑、视频生成、角色扮演等超过10种视觉创作能力。万相2.6的推出,不仅为广告设计、短剧制作、短视频创作等专业领域提供了强大工具,更通过其易用的角色扮演和分镜功能,真正让“人人皆可当导演”的愿景照进现实,推动了前沿AI技术向大众应用的普惠。


文章来源:本文综合编译自央广网、国际金融报、杭州网、广州日报、上海证券报、中国网等多家媒体于2025年12月16日的报道,并结合一手体验信息进行整合撰写。

© 版权声明

相关文章

暂无评论

none
暂无评论...