可灵O1重磅发布：全球首个统一多模态视频模型开启AI视频编辑新时代

无需在多个工具间反复切换，只需用自然语言告诉AI你的想法，视频创作就像聊天一样简单。

2025年12月1日，快手可灵AI推出被誉为“视频界Nano Banana”的可灵O1模型，这是全球首个统一多模态视频生成模型，将文生视频、图生视频、视频编辑、内容增删等多项功能融合到一个全能引擎中。

即日起，用户可前往可灵官网（ https://app.klingai.com/ ）体验这一突破性工具。该模型支持3-10秒视频自由生成，最多允许7张图片或1个视频加4张图片的组合参考模式，真正实现了“一个模型，全能创作”。

01 革命性突破：告别“工具散装”时代

在过去，AI视频创作的体验是割裂的——文生视频一个入口、图生视频另一个入口、视频编辑又要换工具。创作者不得不在多个界面间来回切换，如同操作一堆散装零件，费时费力。

可灵O1的大一统设计彻底改变了这一局面。它基于MVL（多模态视觉语言）理念，将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等任务融合于同一个引擎。

“可灵O1最大的改变就是搞了个‘大一统’，把所有这些功能全部融合进了一个全能模型里，用户再也不用在多个工具之间反复横跳了。”一位早期测试者如此评价。

可灵O1支持最多7张参考图像，可轻松保持视频中角色、产品、道具、场景等元素的一致性。实测显示，即使用户上传风格迥异的素材（如写实背景+2D动画人物），模型也能将它们自然融合，生成合理的视频画面。

这一功能对于打造个人IP的创作者来说尤为实用。通过上传同一个人物的多张图片，可灵O1可以像人类导演一样“记住”主角特征，无论镜头如何切换，都能保持主体稳定性。

可灵O1最令人印象深刻的功能是其自然语言视频编辑能力。用户无需手动遮罩或关键帧，只需输入“移除路人”、“将白天改为黄昏”或“替换主角服装”等指令，模型即可自动完成像素级的语义重构。

测试者展示了一个典型例子：给一个夜景视频添加红色灯笼，模型不仅无缝添加了灯笼，还自动生成了灯笼在河里的倒影，包括光影反射都处理得恰到好处。

此外，可灵O1还能实现视频元素的增加、删除和替换。例如，将《马达加斯加的企鹅》中的企鹅穿上西装戴上墨镜，或从视频中删除特定人物，效果自然如“灭霸打响指”。

可灵O1的操作界面设计直观，用户可通过类似对话的方式进行操作。在输入框中，用户可以直接@某个视频或图片作为参考，这种符合人类直觉的交互方式大幅降低了学习成本。

一位测试者描述：“只需要在指代素材那里@对应的素材就行。比如上传需要编辑的视频，然后输入‘穿上黑色风衣和带上墨镜’，就能看到视频已经被修改了，服饰的质感和周围环境融合得很好。”

可灵O1的核心技术优势在于其深层语义理解能力。模型结合了Chain-of-thought（思维链）技术，能够像导演一样记忆主角、道具和场景，确保无论镜头如何流转，主体特征始终稳定如一。

这一能力解决了AI视频难以落地的痛点——角色与场景的一致性。在复杂的群像戏或互动场景中，模型能独立锁定并保持每一位角色或道具的特征，实现工业级的特征统一。

同时，模型支持“技能组合”，用户可以要求系统“在视频中增加主体的同时修改背景”，或“在图片参考生成时同步修改风格”，极大地拓展了创作自由度。

可灵O1的统一多模态特性使其可广泛应用于多个领域：

针对模特约拍麻烦、更换背景/服装需重复拍摄等问题，可灵O1可搭建“永不落幕的虚拟T台”，上传模特与服装实拍图即可批量生产高质量的Lookbook视频。

尽管可灵O1表现出色，但作为第一版产品，它仍存在一些局限性。在复杂场景下，模型偶尔会出现瑕疵，如删除物体不彻底、复杂动作处理不够完美等。

测试者报告了一个例子：在删除视频中的兔子时，细看可以发现兔子原有位置扣除得并不干净。另一个案例中，左侧的杯子在修改后“凭空长出了一条尾巴”。

然而，多数测试者认为，从日常创作的角度看，可灵O1的现有能力已经足够满足大多数需求，其统一的模型架构为后续优化奠定了良好基础。

可灵O1的推出标志着AI视频生成从“抽卡时代”迈入“可控编辑时代”。正如一位测试者所言：“现在大部分Agent都在讲一键完成，但用着用着我更渴望在省去复杂工作的同时，还能对效果精准控制。可灵O1正好满足了这一需求。”

随着可灵O1向所有用户开放，视频创作的门槛将大幅降低，未来将有更多创作者能够无需专业剪辑技能，直接通过自然语言表达实现自己的创意构想。

资料来源：综合自网易订阅、腾讯新闻、TechWeb、央广网等媒体公开报道

文章版权归作者所有，未经允许请勿转载。