谷歌Gemini Omni即将发布：AI视频迈入「对话编辑」时代

摘要：就在OpenAI的Sora因烧钱和留存惨淡正式关停之际，谷歌在I/O 2026大会前夕意外泄露了全新原生视频模型Gemini Omni。从实测来看，Omni不仅一举攻克了视频文本连贯性的“阿喀琉斯之踵”（如完美推导数学公式），更带来了颠覆性的「对话式实时编辑」功能——动动嘴就能去水印、换物体。这不仅是技术的跃升，更标志着AI视频生成正式跨入第三阶段：从“看清”、“看懂”迈向“对话互动”。

谁能想到，AI视频赛道的变天，来得这么猝不及防。

4月26日，OpenAI的Sora App在挣扎了一年多后，带着每天千万美元级的亏损和不足8%的留存率，彻底画上了句号。就在整个行业以为视频生成要进入漫长的瓶颈期时，谷歌却在这个节骨眼上，不小心把底牌掀了。

5月上旬，有Reddit和X平台的网友发现，Gemini App的主页突然冒出了一个新入口，赫然写着：“认识一下我们全新的视频生成模型。重新混剪你的视频，直接在聊天框里编辑，试试模板，还有更多。”

它的名字叫——Gemini Omni。距离Google I/O 2026开幕只剩不到十天，这究竟是手滑，还是谷歌的精准卡位放风？没人说得准。但“Omni”（全能）这两个字，配合上直接在对话框里剪片子的描述，已经足够让整个AI圈沸腾了。

黑板推公式全对，AI视频告别“鬼画符”

纸上谈兵没意思，真正让人瞳孔地震的，是随之流出的两段实测Demo。

一直以来，文本一致性是视频生成模型挥之不去的噩梦。哪怕是曾经惊艳全球的Sora，一旦遇到写字的场景，出来的基本都是看着像字、仔细一看全是乱码的“鬼画符”，更别提连贯的逻辑推导了。

但在Omni泄露的Demo里，一位教授拿着粉笔在黑板上推导三角恒等式，公式不仅全对，推导逻辑连贯，甚至连笔迹的顿挫都极为自然。更可怕的是，这一切仅仅用了一句提示词：“一位教授在传统黑板上写下三角恒等式的数学证明，并解释他目前的步骤。”

为了验证这不是个例，有人把同样的提示词丢给了目前风头正劲的字节跳动Seedance 2.0。结果虽然画面质感依旧在线，但黑板上的板书内容却和三角恒等式没什么关系，文字渲染依然存在明显的乱码问题。可以说，Omni在视频文字渲染这块，直接把同行甩开了一个身位。

另一个经典的“意大利面测试”（还原威尔·史密斯吃面）中，Omni同样展现出了惊人的物理交互逻辑。面条不再像橡皮筋，叉子也没有穿模，甚至在镜头频繁切换下，人物的一致性依然稳如泰山。

真正的杀手锏：动动嘴，视频随便剪

如果说生成质量是基本功，那“Edit directly in chat（直接在聊天中编辑）”就是Omni扔出的核武器。

以前的视频生成和编辑是割裂的，你得先生成，再导出到剪辑软件里慢慢改。但Omni把这事儿变成了聊天：

一键去水印：有网友上传了带Sora水印的视频，直接在对话框里说“去掉水印”，画面瞬间干净，连一丝修补的痕迹都没留下。
精准物体替换：视频里原本是一盘意大利面，你只需要说“换成奶油浓汤”，光影、遮挡关系全都能自动重新适配，毫无违和感。

这种将生成与编辑无缝融合的体验，对创作者来说简直是降维打击。正如圈内人评价的，这足以成为改变游戏规则的工具。

Omni到底是什么底色？不止是换个马甲

关于Omni的技术底色，目前坊间有三种猜测：

保守派：只是Veo 3.1换了个Gemini的马甲，本质上没啥新活。
中间派：这是一个独立于Veo架构的全新自研模型。从泄露界面看，Omni与谷歌现有的视频工具内部代号“Toucan”并列出现，支持了这一判断。
激进派：这是真正的全模态统一模型。文本、图像、音频、视频在一个模型里搞定，就像GPT-4o之于文本对话一样。

从目前的线索来看，现实极可能偏向第三种。目前谷歌的视频生成靠Veo，图像生成靠Nano Banana，这种拼图式的架构在风格一致性上天生有缺陷。而Omni的出现，意味着谷歌很可能已经搞定了单一系统处理所有模态的难题——如果是这样，那它不仅是视频模型，更是首个支持原生视频输出的顶级全能大模型。

算力深渊：Sora的墓碑，Omni的达摩克利斯之剑

惊艳归惊艳，现实的问题依然摆在台面上：视频生成太烧钱了。

泄露的使用数据显示，仅仅生成了数学板书和吃面两个视频，就消耗了该用户AI Pro订阅计划每日额度的86%。作为对比，同样套餐下Veo 3.1一天大概能生成30-50段。这意味着Omni的单次算力消耗大约是前者的十几倍。

Sora就是死在这上面的。日耗千万美元，总收入才勉强两百万，这生意谁也扛不住。谷歌虽然家大业大，但如果不能在效率上做优化，Omni迟早也会撞上算力成本的南墙。

赛道洗牌：谷歌的生态碾压局

眼下，AI视频赛道已经是红海一片。除了字节的Seedance 2.0在各项基准测试中霸榜，阿里的HappyHorse、快手的Kling V3.0都在虎视眈眈。

但谷歌手里捏着一张别人没有的王牌：分发生态。

画质再好，如果只能在一个孤立的App里用，终究是走不远的。谷歌可以把Omni顺手塞进YouTube Shorts、Google Workspace、Android系统和Gemini App里。这种级别的原生生态整合，是哪怕Seedance和Kling都望尘莫及的。谷歌不是在打单纯的画质仗，而是在打一场工作流和生态的降维打击战。

写在最后：AI视频的第三阶段

抛开参数和跑分不谈，Omni的泄露其实指明了一个清晰的行业拐点：AI视频生成正在步入第三阶段。

第一阶段：能不能看清（从马赛克到1080P高清）。
第二阶段：能不能看懂（从鸡同鸭讲到语义精准对齐）。
第三阶段：能不能对话（实时交互与智能编辑）。——我们现在站在这里。

5月19日的Google I/O大会，Omni大概率会站上主舞台。届时，除了看Demo，我们更关心的是：谷歌打算怎么卖？Veo品牌还会保留吗？以及，那悬在头顶的算力成本，谷歌到底打算怎么消化？

老对手已经黯然退场，新王炸蓄势待发。这场大戏，才刚开场。

文章来源：大国Ai导航（daguoai.com）综合整理自iWeaver AI、新智元、新浪科技及Reddit社区等公开报道。

文章版权归作者所有，未经允许请勿转载。

谷歌Gemini Omni即将发布：AI视频迈入「对话编辑」时代

黑板推公式全对，AI视频告别“鬼画符”

真正的杀手锏：动动嘴，视频随便剪

Omni到底是什么底色？不止是换个马甲

算力深渊：Sora的墓碑，Omni的达摩克利斯之剑

赛道洗牌：谷歌的生态碾压局

写在最后：AI视频的第三阶段

GPT Image 2 深度实测：神级Prompt全公开，AI绘图跨入中文无障碍时代！

Anthropic重磅开源Claude金融Skills：11个Agent接管华尔街，AI Agent进入生产级时刻

相关文章

GLM-4.7编程能力比肩Claude Code，国产大模型实现“无感平替”

实测小云雀短剧Agent 2.0：字节AI短剧工作流全流程解析，Seedance 2.0加持下720°全景+3D导演台让创作丝滑如德芙

Google生成式UI革命：Dynamic View与Visual Layout如何重塑AI交互未来

多智能体协同写作成真：Claude Code平台让“AI写网文”效率倍增

暂无评论

最新文章

谷歌Gemini Omni即将发布：AI视频迈入「对话编辑」时代

黑板推公式全对，AI视频告别“鬼画符”

真正的杀手锏：动动嘴，视频随便剪

Omni到底是什么底色？不止是换个马甲

算力深渊：Sora的墓碑，Omni的达摩克利斯之剑

赛道洗牌：谷歌的生态碾压局

写在最后：AI视频的第三阶段

GPT Image 2 深度实测：神级Prompt全公开，AI绘图跨入中文无障碍时代！

Anthropic重磅开源Claude金融Skills：11个Agent接管华尔街，AI Agent进入生产级时刻

相关文章

GLM-4.7编程能力比肩Claude Code，国产大模型实现“无感平替”

实测小云雀短剧Agent 2.0：字节AI短剧工作流全流程解析，Seedance 2.0加持下720°全景+3D导演台让创作丝滑如德芙

Google生成式UI革命：Dynamic View与Visual Layout如何重塑AI交互未来

多智能体协同写作成真：Claude Code平台让“AI写网文”效率倍增

暂无评论

最新文章

标签云