可灵AI 2.6发布“音画同出”功能，AI视频创作迈入视听同步新时代

摘要： 2025年12月3日，快手旗下可灵AI（Kling AI）正式发布视频生成2.6模型，其核心突破在于首次内置了音频生成能力，实现了“音画同出”。该技术能根据文本或图像描述，在生成高清视频的同时，同步输出匹配的人声、音效及环境音，彻底改变了传统AI视频“先生成画面，后人工配音”的繁琐流程，将创作效率提升50%以上，标志着AI视频生成从“视觉优先”向“多感官同步”的全面升级。

技术突破：终结“哑巴视频”，实现毫秒级音画同步

长期以来，AI生成视频面临一个核心瓶颈：画面日益精良，但音频往往缺失或粗糙脱节，导致成品如同“无声电影”，严重影响了沉浸式体验，这在强调氛围感的汽车、美食等内容领域尤为突出。可灵AI 2.6模型旨在解决这一痛点，其“音画同出”能力并非简单的音频贴附，而是基于复杂的多模态AI系统实现的深度同步。

该功能依托于自研的多模态模型Kling-Foley，通过扩散变换器与3D时空联合注意力机制的深度融合，实现了对复杂指令理解能力15%的提升，以及毫秒级的音画对齐。这意味着AI不仅能“看懂”画面中的动作，还能“听懂”并生成与之节奏、情感匹配的声音。例如，在生成汽车加速画面时，引擎声浪能随转速同步上扬；在人物对话时，唇形与语音能精准匹配。一项关键技术“相位对齐各向异性位置注入（PAAPI）”，确保了声音在时空维度上的精确坐标，使声源方位、环境混响等都更接近真实。

功能与应用：重构创作工作流，赋能多元场景

本次升级着重强化了“文生音画”与“图生音画”两大功能。用户只需输入一段自然语言描述（如“一辆特斯拉在赛道上疾驰”）或上传一张静态图片，模型即可在单次生成中输出最长10秒、包含同步音频的1080P高清视频。目前，语音生成支持中文与英文。

该技术支持的声音类型极为丰富，涵盖人物说话/旁白/独白、多人对话、歌唱/说唱、环境音（风、雨）、动作音效（脚步声、碰撞声）以及复杂的混合音效。这使其应用场景得到极大拓展：

内容创作：自媒体作者、短视频团队可以极低成本快速生成高质量的口播视频、剧情短片或MV，无需专业录音和后期剪辑设备。
电商营销：可快速生成具备沉浸感的产品展示视频，例如，一段描述就能生成带有榨汁机轰鸣声和活力旁白的产品广告。
教育娱乐：能够便捷地制作有声教学视频、历史场景重现或沉浸式白噪音助眠内容，将知识点或氛围感生动呈现。

市场影响与未来展望：从“玩具”到“生产力工具”的进化

可灵2.6的发布不仅是技术迭代，更是对视频创作生产力的解放。行业分析指出，该功能补齐了AI视频技术栈的最后一块短板，有望将后期配音与音效剪辑的流程缩短50%以上。同时，通过算法优化，其算力成本较上一版本降低了30%，每生成5秒视频仅消耗25积分，降低了使用门槛。

在市场策略上，快手选择了更专业的路径，可灵2.6将率先登陆Artlist等全球专业创作平台，并提供API接口，直接服务于影视制作、广告创意等专业领域，推动AI工具从“玩具”向“生产力工具”转变。官方路线图显示，计划在2026年第一季度推出支持4K分辨率、60帧的超高清版本，并开放自定义声线库。

随着可灵2.6等模型推动供给侧效率爆发，一个全新的“有声短视频”内容红利期正在到来。AI视频创作的竞争维度，已从单纯的画面质量比拼，升级为对视听语言整体把控力的较量。

文章来源：综合自腾讯网《短板补齐挑战Google？可灵2.6支持音画同步生成》、搜狐号《可灵2.6模型推出“音画同出”能力中文语音生成效果全球领先》、微信公众号“快手可灵2.6重磅上线：业界首推‘音画同出’AI视频生成模型，突破创作边界”及网通社《AI终结“哑巴视频”：汽车内容革命悄然启幕》等公开报道。

Ai资讯 # AI视频 # 可灵AI 2.6

文章版权归作者所有，未经允许请勿转载。

2026年4月10日：OpenAI推百元Pro档，Gemini能画3D图，语音交互进入全双工时代

可灵AI 2.6发布“音画同出”功能，AI视频创作迈入视听同步新时代

技术突破：终结“哑巴视频”，实现毫秒级音画同步

功能与应用：重构创作工作流，赋能多元场景

市场影响与未来展望：从“玩具”到“生产力工具”的进化

OpenAI秘密测试“企鹅”系列模型，全新推理架构与记忆搜索功能曝光

海螺AI宣布，在2025年12月31日之前，所有档位的付费会员均可无限次免费使用Nano Banana Pro模型生成4K超清图像

相关文章

2026年4月10日：OpenAI推百元Pro档，Gemini能画3D图，语音交互进入全双工时代

AI桌面端三国杀：Codex、Claude、Gemini 深度横评，谁才是2026最强生产力神器？

AI革新电商生产力：白底图+多维表格构建详情页“智能工厂”

GPT-5.3-Codex登场：AI开始“自己造自己”，编程与办公迎来全能同事

暂无评论

最新文章

可灵AI 2.6发布“音画同出”功能，AI视频创作迈入视听同步新时代

技术突破：终结“哑巴视频”，实现毫秒级音画同步

功能与应用：重构创作工作流，赋能多元场景

市场影响与未来展望：从“玩具”到“生产力工具”的进化

OpenAI秘密测试“企鹅”系列模型，全新推理架构与记忆搜索功能曝光

海螺AI宣布，在2025年12月31日之前，所有档位的付费会员均可无限次免费使用Nano Banana Pro模型生成4K超清图像

相关文章

2026年4月10日：OpenAI推百元Pro档，Gemini能画3D图，语音交互进入全双工时代

AI桌面端三国杀：Codex、Claude、Gemini 深度横评，谁才是2026最强生产力神器？

AI革新电商生产力：白底图+多维表格构建详情页“智能工厂”

GPT-5.3-Codex登场：AI开始“自己造自己”，编程与办公迎来全能同事

暂无评论

最新文章

标签云