无需在多个工具间反复切换,只需用自然语言告诉AI你的想法,视频创作就像聊天一样简单。
2025年12月1日,快手可灵AI推出被誉为“视频界Nano Banana”的可灵O1模型,这是全球首个统一多模态视频生成模型,将文生视频、图生视频、视频编辑、内容增删等多项功能融合到一个全能引擎中。
即日起,用户可前往可灵官网( https://app.klingai.com/ )体验这一突破性工具。该模型支持3-10秒视频自由生成,最多允许7张图片或1个视频加4张图片的组合参考模式,真正实现了“一个模型,全能创作”。
在过去,AI视频创作的体验是割裂的——文生视频一个入口、图生视频另一个入口、视频编辑又要换工具。创作者不得不在多个界面间来回切换,如同操作一堆散装零件,费时费力。
可灵O1的大一统设计彻底改变了这一局面。它基于MVL(多模态视觉语言)理念,将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等任务融合于同一个引擎。
“可灵O1最大的改变就是搞了个‘大一统’,把所有这些功能全部融合进了一个全能模型里,用户再也不用在多个工具之间反复横跳了。”一位早期测试者如此评价。
可灵O1支持最多7张参考图像,可轻松保持视频中角色、产品、道具、场景等元素的一致性。实测显示,即使用户上传风格迥异的素材(如写实背景+2D动画人物),模型也能将它们自然融合,生成合理的视频画面。
这一功能对于打造个人IP的创作者来说尤为实用。通过上传同一个人物的多张图片,可灵O1可以像人类导演一样“记住”主角特征,无论镜头如何切换,都能保持主体稳定性。
可灵O1最令人印象深刻的功能是其自然语言视频编辑能力。用户无需手动遮罩或关键帧,只需输入“移除路人”、“将白天改为黄昏”或“替换主角服装”等指令,模型即可自动完成像素级的语义重构。
测试者展示了一个典型例子:给一个夜景视频添加红色灯笼,模型不仅无缝添加了灯笼,还自动生成了灯笼在河里的倒影,包括光影反射都处理得恰到好处。
此外,可灵O1还能实现视频元素的增加、删除和替换。例如,将《马达加斯加的企鹅》中的企鹅穿上西装戴上墨镜,或从视频中删除特定人物,效果自然如“灭霸打响指”。
可灵O1的操作界面设计直观,用户可通过类似对话的方式进行操作。在输入框中,用户可以直接@某个视频或图片作为参考,这种符合人类直觉的交互方式大幅降低了学习成本。
一位测试者描述:“只需要在指代素材那里@对应的素材就行。比如上传需要编辑的视频,然后输入‘穿上黑色风衣和带上墨镜’,就能看到视频已经被修改了,服饰的质感和周围环境融合得很好。”
可灵O1的核心技术优势在于其深层语义理解能力。模型结合了Chain-of-thought(思维链)技术,能够像导演一样记忆主角、道具和场景,确保无论镜头如何流转,主体特征始终稳定如一。
这一能力解决了AI视频难以落地的痛点——角色与场景的一致性。在复杂的群像戏或互动场景中,模型能独立锁定并保持每一位角色或道具的特征,实现工业级的特征统一。
同时,模型支持“技能组合”,用户可以要求系统“在视频中增加主体的同时修改背景”,或“在图片参考生成时同步修改风格”,极大地拓展了创作自由度。
可灵O1的统一多模态特性使其可广泛应用于多个领域:
针对模特约拍麻烦、更换背景/服装需重复拍摄等问题,可灵O1可搭建“永不落幕的虚拟T台”,上传模特与服装实拍图即可批量生产高质量的Lookbook视频。
尽管可灵O1表现出色,但作为第一版产品,它仍存在一些局限性。在复杂场景下,模型偶尔会出现瑕疵,如删除物体不彻底、复杂动作处理不够完美等。
测试者报告了一个例子:在删除视频中的兔子时,细看可以发现兔子原有位置扣除得并不干净。另一个案例中,左侧的杯子在修改后“凭空长出了一条尾巴”。
然而,多数测试者认为,从日常创作的角度看,可灵O1的现有能力已经足够满足大多数需求,其统一的模型架构为后续优化奠定了良好基础。
可灵O1的推出标志着AI视频生成从“抽卡时代”迈入“可控编辑时代”。正如一位测试者所言:“现在大部分Agent都在讲一键完成,但用着用着我更渴望在省去复杂工作的同时,还能对效果精准控制。可灵O1正好满足了这一需求。”
随着可灵O1向所有用户开放,视频创作的门槛将大幅降低,未来将有更多创作者能够无需专业剪辑技能,直接通过自然语言表达实现自己的创意构想。
资料来源:综合自网易订阅、腾讯新闻、TechWeb、央广网等媒体公开报道