阿里Wan-Streamer首发:端到端实时视频AI模型来了,数字人视频聊天告别延迟

Ai资讯3小时前发布 大国Ai
14 0 0

摘要:2026年6月26日,阿里巴巴Wan团队正式发布Wan-Streamer v0.1——全球首个原生流式、端到端全双工音视频实时交互多模态基础模型。它将文本、音频、视频的感知与生成全部塞进单个Transformer,模型端响应延迟低至200ms,总交互延迟仅550ms,让”像和真人打视频电话”的数字人对话第一次真正落地。本文将从技术架构、性能表现、产业意义三个维度深度拆解这次发布。

一、为什么Wan-Streamer值得AI圈集体关注

数字人这个赛道热闹了好几年,但长期卡在一个尴尬的位置:能录视频、能做数字员工播报,但只要进入”实时视频对话”场景,体验就立刻塌方——你说完一句,AI先做语音识别,再交给LLM生成文本,再TTS转语音,最后驱动一个口型模型渲染画面。这种”级联式架构”每一层都在叠加延迟和误差,最终呈现的就是一台”慢半拍的机器”在轮流发言。

阿里Wan-Streamer首发:端到端实时视频AI模型来了,数字人视频聊天告别延迟

阿里Wan团队这次给出的答案非常干脆:砍掉所有中间环节,让一个模型同时干完所有事

Wan-Streamer v0.1定位为”原生流式、端到端全双工音视频实时交互多模态基础大模型”。它不再把语言、音频、视频拆成三个独立环节逐个击破,而是在单一Transformer内部同步处理这三种信号,真正跑通了全双工视频通话体验。

二、技术架构:把”流式契约”写进每一层

1. 块因果注意力+因果VAE,从根上保证实时性

Wan-Streamer的核心设计被研究团队称为”Streaming Contract”(流式契约)——栈中每个组件都严格满足因果性,即任意时刻的输出只依赖过去和当前输入,绝不”偷看”未来数据。这套设计包含三类关键组件:

  • 因果音视频VAE:将高维音视频压缩为紧凑隐表征,最短可处理160ms(25fps下4帧)的流式单元;
  • 因果编码器/解码器:处理用户观测与智能体响应,不做时间前瞻;
  • 块因果Transformer:中央推理引擎,基于累积因果上下文预测下一个token或隐单元。

2. 交互建模:160ms为粒度的连续因果流

在Wan-Streamer框架下,交互被建模为一个连续单元流。每个流式步骤k,模型接收用户观测u_k=(文本, 音频, 视频),同时生成智能体响应y_k=(文本, 音频, 视频)。这种”边听边想边说边演”的并行能力,是过去级联架构无法实现的。

3. 端到端统一:告别ASR+LLM+TTS+渲染的拼装链路

传统方案中,摄像头抓画面、麦克风录音、转文字、LLM思考、转语音、驱动数字人,每一环都可能卡顿,错误还会逐级放大。Wan-Streamer内部没有外接任何ASR、TTS或视频生成模块,全部由同一个大模型在内部自主完成。这意味着误识别不再向后传播,整体延迟也大幅压缩。

三、性能表现:200ms响应、550ms总延迟意味着什么

官方放出的实时录制视频显示,Wan-Streamer在对话中表现更像一个能”察言观色”的人——它会根据用户语气和停顿节奏做反应,被插话时能自然调整发言节奏,而不是机械地把上一句话讲完。

关键性能数据如下:

指标 数值 说明
模型端响应延迟 200ms 业界领先水平
总交互延迟 550ms 含350ms双向网络延迟
流式单元最短长度 160ms 25fps下4帧
视频输出帧率 25fps 音画原生同步

对比横向数据,GPT-4o Realtime、Doubao Voice、Gemini Live大多只支持语音实时交互,而仅做渲染的StreamAvatar、Hallo-Live又不包含外部LLM/ASR/TTS链路。Wan-Streamer是开源领域中少有的、能以25fps原生同步输出音频与视觉分身的大模型。

四、产业意义:数字人进入”亚秒级交互”时代

1. 这不是第一次,但确实是第一次”端到端”

需要明确的是,阿里在多模态实时交互上早有布局:2025年3月开源的Qwen2.5-Omni-7B就已采用Thinker-Talker双核架构,支持文本/图像/音频/视频输入与实时语音输出;同年4月推出的OmniTalker将音视频对齐误差控制在±40ms内,MOS评分4.5;2026年4月的Qwen3.5-Omni则进一步把流式生成稳定性和长上下文能力拉到新高度。

但前面这些方案多多少少仍保留了”Thinker负责理解、Talker负责生成”的模块化分工,而Wan-Streamer则是把这种分工也内化为同一个Transformer内部的计算——这是真正的”原生流式”。

2. 场景想象空间被彻底打开

从客服、在线教育、远程医疗到虚拟助手,一旦同步处理的视频交互技术走出实验室,适用场景会迅速铺开。一个能实时看懂你表情、在你话说到一半就准备好回应的数字人,会让目前那些需要排队等候、逐句转译的交互方案在用户体验层面直接落后一代。

3. 但也要冷静:目前还是v0.1研究原型

Wan-Streamer v0.1的定位是研究原型和概念验证,既未开源,也未面向终端用户推出商业产品,普通人目前还无法直接使用。研究团队在官方页面提到,这项技术离日常应用的距离正在缩短,但具体落地节奏仍需观察。

五、对比与展望:实时数字人赛道的新坐标

Wan-Streamer的出现,等于给整个赛道重新划了一条起跑线:

  • 对闭源厂商:GPT-4o Realtime、Gemini Live等需要补齐”原生视频输出”这一课;
  • 对开源社区:Anuttacon的LPM-1.0走”主干+细化”两阶段路线,未来是否会向Wan-Streamer的纯端到端路线收敛值得关注;
  • 对阿里自身:Wan-Streamer与Qwen-Omni系列、ChatAnyone、OmniTalker形成了从”模块化实时交互”到”原生流式端到端”的完整技术阶梯,商业化路径已经清晰。

研究团队也强调,论文公开和实时演示的效果已经说明方向性的东西:实时数字人的落地,可能比行业此前预期走得更快。


文章来源

  • 本文由大国AI导航(daguoai.com)整理撰写,综合自阿里Wan团队官方博客、HuggingFace论文页(2606.25041)、网易科技、alphaXiv及相关技术评测报道。
© 版权声明

相关文章

暂无评论

none
暂无评论...