无需在多个工具间来回切换,只需在一个输入框内用自然语言描述,视频创作变得像P图一样简单。
2025年12月2日,快手旗下的可灵AI正式推出全球首个统一多模态视频大模型——可灵O1。这一创新模型采用MVL(多模态视觉语言)统一架构,将文生视频、图生视频、视频编辑等过去分散的功能融合于单一引擎中,标志着视频创作正式进入可编辑时代。
可灵O1即日起面向全体用户开放,用户可通过可灵官网( https://app.klingai.com/ )或App进行体验。该模型支持3-10秒视频自由生成,为短视频创作者、广告团队及个人用户提供全新创作工具。
与传统AI视频工具的功能分散不同,可灵O1基于创新的MVL交互架构,将多种创作任务融合在统一界面中完成。
此前,用户需要分别使用不同模块处理文生视频、图生视频、局部编辑等任务,流程复杂且难以保持一致性。可灵O1彻底改变了这一现状,在单一输入框内融合文字、图像、视频三种指令,实现真正意义上的“大一统”创作体验。
可灵AI产品负责人介绍,该模型首次引入Chain-of-Thought推理链路,使其具备常识推理与事件推演能力。在O1眼中,“每一张照片、每一个视频、每一段文字都是指令”,能够深度理解用户意图并进行逻辑推演。
可灵O1针对AI视频长期存在的“特征漂移”问题,带来了突破性解决方案。
通过多视角主体构建技术,模型能够锁定人物与物体特征,解决镜头切换时出现的角色不一致问题。无论镜头如何流转,主体特征都能保持稳定如一,确保画面精准与连贯。
这一技术对于需要多角度展示产品的电商行业尤为有利。实测显示,即使进行大幅环绕运镜,产品细节(如鼠标上的划痕和使用痕迹)也能保持高度一致,大幅提升产品展示质量。
该模型还展现出强大的多主体融合能力,用户可以自由组合多个不同主体,或将主体与参考图混搭。即使在复杂的群像戏或互动场景中,模型也能独立锁定并保持每一位角色或道具的特征。
可灵O1的核心突破在于将复杂的视频编辑转化为直观的自然语言操作。以下是其主要功能应用:
用户只需简单指令即可增加或删除视频中的元素。例如,为《马达加斯加的企鹅》中的Skipper穿上西装、戴上墨镜;或一键消除视频中的路人甲,效果如同“灭霸打响指”。
这一功能对于需要修改已拍摄视频的场景极具价值,传统视频编辑中需要巨大人力修改的内容,现在只需会描述即可完成。
用户可以精准修改视频中的特定内容,如改变衣服颜色、调整季节景观或替换单个物体。实测案例中,可将夏季景观变为冬季雪景,将篮球变为足球,或修改模特发型和服装,实现“百变女神”效果。
特别令人印象深刻的是,当为夜景视频添加红色灯笼时,模型不仅无缝融合了新元素,还自动生成了灯笼在河中的倒影,包括精细的光影反射效果,展现出对物理世界的深度理解。
可灵O1具备自动绿幕抠像功能,可将现有视频中的主体自动分离出来。传统流程中若前期未搭绿幕,后期抠像极为繁琐,而现在模型通过视频理解与分割能力,自动完成这一过程。
这对于需要特效合成的创作者来说,大幅降低了技术门槛和时间成本。
用户可轻松改变视频的整体风格,如将实拍视频转换为手绘动画、赛博朋克或吉卜力动漫风格。操作简单,只需输入“将XXX视频转换为XXX风格”即可完成。
可灵O1支持将一个视频的动作迁移到另一个角色上,如让疯狂动物城中的尼克跳原版舞蹈动作。同时,可根据现有镜头自动生成下一个镜头,如将车辆行驶镜头切换为特写视角,展现极致速度感。
可灵O1引入了“主体”概念,用户可以上传1-7张不同角度的图片创建自定义主体,如特定人物、角色或道具。创建后,这些主体可随时调用,确保在不同视频中保持特征一致。
官方已内置常见主体库,涵盖热梗人物、动物、道具等多种类型。创作者也可以建立自己的主体库,避免频繁上传相同素材,提升创作效率。
多主体自由组合功能允许用户轻松添加或调整多个角色,如将人物主体与道具主体结合,创造出更加丰富多样的视频内容。
可灵O1的发布不仅引发技术圈热议,也获得资本市场积极回应。消息公布后,快手-W股价盘中一度涨超5%,成交额显著放大。多家券商对此表示乐观,认为其在生成式AI领域的持续投入有望打开新的商业化空间。
行业分析师指出,可灵O1的上线可能进一步降低AI视频制作门槛,但能否在生成质量与成本效率之间取得平衡,仍有待市场检验。
从行业角度看,这一技术将为影视制作、自媒体内容创作、广告电商等领域带来革新。特别是对于需要大量视频内容的短视频创作者,可灵O1提供了一种高效、低成本的解决方案。
可灵O1的操作界面简洁直观,主要功能区包括:
使用技巧:对于复杂编辑任务,可采用“分步修改”策略。先通过一次修改获得符合要求的内容,再基于此进行二次修改,以增强控制精度。
目前模型最高支持1080p分辨率输出,在仔细查看人脸等细节时可能仍会发现一些不自然之处。此外,音效和对白生成功能尚未支持,仍处于“默片时代”。
可灵O1的发布是AI视频创作领域的重要里程碑。它首次实现了视频的直观、可逆编辑,将专业后期技术简化为自然语言指令。
随着可灵AI宣布开启“五天连更”模式,未来可能还会带来更多创新功能。视频创作的大众化时代,已经到来。
【文章来源】本文综合自可灵AI官方发布信息及多家科技媒体实测报道,包括藏师傅评测、新京报贝壳财经、东方财富网财富号等。