可灵AI 2.6发布“音画同出”功能,AI视频创作迈入视听同步新时代

Ai资讯4周前发布 大国Ai
262 0 0

摘要: 2025年12月3日,快手旗下可灵AI(Kling AI)正式发布视频生成2.6模型,其核心突破在于首次内置了音频生成能力,实现了“音画同出”。该技术能根据文本或图像描述,在生成高清视频的同时,同步输出匹配的人声、音效及环境音,彻底改变了传统AI视频“先生成画面,后人工配音”的繁琐流程,将创作效率提升50%以上,标志着AI视频生成从“视觉优先”向“多感官同步”的全面升级。

可灵AI 2.6发布“音画同出”功能,AI视频创作迈入视听同步新时代

技术突破:终结“哑巴视频”,实现毫秒级音画同步

长期以来,AI生成视频面临一个核心瓶颈:画面日益精良,但音频往往缺失或粗糙脱节,导致成品如同“无声电影”,严重影响了沉浸式体验,这在强调氛围感的汽车、美食等内容领域尤为突出。可灵AI 2.6模型旨在解决这一痛点,其“音画同出”能力并非简单的音频贴附,而是基于复杂的多模态AI系统实现的深度同步。

该功能依托于自研的多模态模型Kling-Foley,通过扩散变换器与3D时空联合注意力机制的深度融合,实现了对复杂指令理解能力15%的提升,以及毫秒级的音画对齐。这意味着AI不仅能“看懂”画面中的动作,还能“听懂”并生成与之节奏、情感匹配的声音。例如,在生成汽车加速画面时,引擎声浪能随转速同步上扬;在人物对话时,唇形与语音能精准匹配。一项关键技术“相位对齐各向异性位置注入(PAAPI)”,确保了声音在时空维度上的精确坐标,使声源方位、环境混响等都更接近真实。

功能与应用:重构创作工作流,赋能多元场景

本次升级着重强化了“文生音画”与“图生音画”两大功能。用户只需输入一段自然语言描述(如“一辆特斯拉在赛道上疾驰”)或上传一张静态图片,模型即可在单次生成中输出最长10秒、包含同步音频的1080P高清视频。目前,语音生成支持中文与英文。

该技术支持的声音类型极为丰富,涵盖人物说话/旁白/独白、多人对话、歌唱/说唱、环境音(风、雨)、动作音效(脚步声、碰撞声)以及复杂的混合音效。这使其应用场景得到极大拓展:

  • 内容创作:自媒体作者、短视频团队可以极低成本快速生成高质量的口播视频、剧情短片或MV,无需专业录音和后期剪辑设备。
  • 电商营销:可快速生成具备沉浸感的产品展示视频,例如,一段描述就能生成带有榨汁机轰鸣声和活力旁白的产品广告。
  • 教育娱乐:能够便捷地制作有声教学视频、历史场景重现或沉浸式白噪音助眠内容,将知识点或氛围感生动呈现。

市场影响与未来展望:从“玩具”到“生产力工具”的进化

可灵2.6的发布不仅是技术迭代,更是对视频创作生产力的解放。行业分析指出,该功能补齐了AI视频技术栈的最后一块短板,有望将后期配音与音效剪辑的流程缩短50%以上。同时,通过算法优化,其算力成本较上一版本降低了30%,每生成5秒视频仅消耗25积分,降低了使用门槛。

在市场策略上,快手选择了更专业的路径,可灵2.6将率先登陆Artlist等全球专业创作平台,并提供API接口,直接服务于影视制作、广告创意等专业领域,推动AI工具从“玩具”向“生产力工具”转变。官方路线图显示,计划在2026年第一季度推出支持4K分辨率、60帧的超高清版本,并开放自定义声线库。

随着可灵2.6等模型推动供给侧效率爆发,一个全新的“有声短视频”内容红利期正在到来。AI视频创作的竞争维度,已从单纯的画面质量比拼,升级为对视听语言整体把控力的较量。


文章来源:综合自腾讯网《短板补齐挑战Google?可灵2.6支持音画同步生成》、搜狐号《可灵2.6模型推出“音画同出”能力 中文语音生成效果全球领先》、微信公众号“快手可灵2.6重磅上线:业界首推‘音画同出’AI视频生成模型,突破创作边界”及网通社《AI终结“哑巴视频”:汽车内容革命悄然启幕》等公开报道。

© 版权声明

相关文章

暂无评论

none
暂无评论...