谷歌Gemini Omni即将发布:AI视频迈入「对话编辑」时代

Ai资讯23小时前发布 大国Ai
148 0 0

摘要:就在OpenAI的Sora因烧钱和留存惨淡正式关停之际,谷歌在I/O 2026大会前夕意外泄露了全新原生视频模型Gemini Omni。从实测来看,Omni不仅一举攻克了视频文本连贯性的“阿喀琉斯之踵”(如完美推导数学公式),更带来了颠覆性的「对话式实时编辑」功能——动动嘴就能去水印、换物体。这不仅是技术的跃升,更标志着AI视频生成正式跨入第三阶段:从“看清”、“看懂”迈向“对话互动”。


谁能想到,AI视频赛道的变天,来得这么猝不及防。

4月26日,OpenAI的Sora App在挣扎了一年多后,带着每天千万美元级的亏损和不足8%的留存率,彻底画上了句号。就在整个行业以为视频生成要进入漫长的瓶颈期时,谷歌却在这个节骨眼上,不小心把底牌掀了。

谷歌Gemini Omni即将发布:AI视频迈入「对话编辑」时代

5月上旬,有Reddit和X平台的网友发现,Gemini App的主页突然冒出了一个新入口,赫然写着:“认识一下我们全新的视频生成模型。重新混剪你的视频,直接在聊天框里编辑,试试模板,还有更多。”

它的名字叫——Gemini Omni。距离Google I/O 2026开幕只剩不到十天,这究竟是手滑,还是谷歌的精准卡位放风?没人说得准。但“Omni”(全能)这两个字,配合上直接在对话框里剪片子的描述,已经足够让整个AI圈沸腾了。

黑板推公式全对,AI视频告别“鬼画符”

纸上谈兵没意思,真正让人瞳孔地震的,是随之流出的两段实测Demo。

一直以来,文本一致性是视频生成模型挥之不去的噩梦。哪怕是曾经惊艳全球的Sora,一旦遇到写字的场景,出来的基本都是看着像字、仔细一看全是乱码的“鬼画符”,更别提连贯的逻辑推导了。

但在Omni泄露的Demo里,一位教授拿着粉笔在黑板上推导三角恒等式,公式不仅全对,推导逻辑连贯,甚至连笔迹的顿挫都极为自然。更可怕的是,这一切仅仅用了一句提示词:“一位教授在传统黑板上写下三角恒等式的数学证明,并解释他目前的步骤。”

为了验证这不是个例,有人把同样的提示词丢给了目前风头正劲的字节跳动Seedance 2.0。结果虽然画面质感依旧在线,但黑板上的板书内容却和三角恒等式没什么关系,文字渲染依然存在明显的乱码问题。可以说,Omni在视频文字渲染这块,直接把同行甩开了一个身位。

另一个经典的“意大利面测试”(还原威尔·史密斯吃面)中,Omni同样展现出了惊人的物理交互逻辑。面条不再像橡皮筋,叉子也没有穿模,甚至在镜头频繁切换下,人物的一致性依然稳如泰山。

真正的杀手锏:动动嘴,视频随便剪

如果说生成质量是基本功,那“Edit directly in chat(直接在聊天中编辑)”就是Omni扔出的核武器。

以前的视频生成和编辑是割裂的,你得先生成,再导出到剪辑软件里慢慢改。但Omni把这事儿变成了聊天:

  • 一键去水印:有网友上传了带Sora水印的视频,直接在对话框里说“去掉水印”,画面瞬间干净,连一丝修补的痕迹都没留下。
  • 精准物体替换:视频里原本是一盘意大利面,你只需要说“换成奶油浓汤”,光影、遮挡关系全都能自动重新适配,毫无违和感。

这种将生成与编辑无缝融合的体验,对创作者来说简直是降维打击。正如圈内人评价的,这足以成为改变游戏规则的工具。

Omni到底是什么底色?不止是换个马甲

关于Omni的技术底色,目前坊间有三种猜测:

  1. 保守派:只是Veo 3.1换了个Gemini的马甲,本质上没啥新活。
  2. 中间派:这是一个独立于Veo架构的全新自研模型。从泄露界面看,Omni与谷歌现有的视频工具内部代号“Toucan”并列出现,支持了这一判断。
  3. 激进派:这是真正的全模态统一模型。文本、图像、音频、视频在一个模型里搞定,就像GPT-4o之于文本对话一样。

从目前的线索来看,现实极可能偏向第三种。目前谷歌的视频生成靠Veo,图像生成靠Nano Banana,这种拼图式的架构在风格一致性上天生有缺陷。而Omni的出现,意味着谷歌很可能已经搞定了单一系统处理所有模态的难题——如果是这样,那它不仅是视频模型,更是首个支持原生视频输出的顶级全能大模型。

算力深渊:Sora的墓碑,Omni的达摩克利斯之剑

惊艳归惊艳,现实的问题依然摆在台面上:视频生成太烧钱了。

泄露的使用数据显示,仅仅生成了数学板书和吃面两个视频,就消耗了该用户AI Pro订阅计划每日额度的86%。作为对比,同样套餐下Veo 3.1一天大概能生成30-50段。这意味着Omni的单次算力消耗大约是前者的十几倍。

Sora就是死在这上面的。日耗千万美元,总收入才勉强两百万,这生意谁也扛不住。谷歌虽然家大业大,但如果不能在效率上做优化,Omni迟早也会撞上算力成本的南墙。

赛道洗牌:谷歌的生态碾压局

眼下,AI视频赛道已经是红海一片。除了字节的Seedance 2.0在各项基准测试中霸榜,阿里的HappyHorse、快手的Kling V3.0都在虎视眈眈。

但谷歌手里捏着一张别人没有的王牌:分发生态

画质再好,如果只能在一个孤立的App里用,终究是走不远的。谷歌可以把Omni顺手塞进YouTube Shorts、Google Workspace、Android系统和Gemini App里。这种级别的原生生态整合,是哪怕Seedance和Kling都望尘莫及的。谷歌不是在打单纯的画质仗,而是在打一场工作流和生态的降维打击战。

写在最后:AI视频的第三阶段

抛开参数和跑分不谈,Omni的泄露其实指明了一个清晰的行业拐点:AI视频生成正在步入第三阶段。

  • 第一阶段:能不能看清(从马赛克到1080P高清)。
  • 第二阶段:能不能看懂(从鸡同鸭讲到语义精准对齐)。
  • 第三阶段:能不能对话(实时交互与智能编辑)。——我们现在站在这里。

5月19日的Google I/O大会,Omni大概率会站上主舞台。届时,除了看Demo,我们更关心的是:谷歌打算怎么卖?Veo品牌还会保留吗?以及,那悬在头顶的算力成本,谷歌到底打算怎么消化?

老对手已经黯然退场,新王炸蓄势待发。这场大戏,才刚开场。


文章来源:大国Ai导航(daguoai.com)综合整理自iWeaver AI、新智元、新浪科技及Reddit社区等公开报道。

© 版权声明

相关文章

暂无评论

none
暂无评论...