摘要:2026年7月1日,谷歌正式将Gemini Omni Flash视频生成与编辑能力开放至Gemini API和Google AI Studio,同时推出号称”迄今为止最快、最经济高效”的图像模型Nano Banana 2 Lite。前者内置Gemini世界知识,支持对话式视频编辑,每秒成本仅0.10美元;后者4秒出图、单张1K图像约0.034美元,两者可串联使用实现”图像→视频”全链路自动化。这标志着谷歌在多模态赛道上打出一套组合拳,直接剑指电商、装修、短视频等垂直场景的商业化落地。
一、Gemini Omni Flash:视频版Nano Banana正式登场
在2026年5月19日的Google I/O大会上首次亮相后,Gemini Omni Flash终于在本周通过Gemini API和Google AI Studio正式向开发者开放。这个被谷歌定位为”万物生成世界模型”的首发版本,把Gemini的多模态推理能力与视频生成、编辑深度结合,被视为谷歌在多模态赛道上的王牌之作。
四项核心能力
根据谷歌官方披露,Gemini Omni Flash具备四项关键能力:
对话式视频编辑:用户可以用自然语言修改和精修视频,操作体验类似改飞书文档。模型通过维持”场景状态向量”(scene state vector),每次对话指令修改状态向量后重新渲染,比传统的Inpainting方式稳定得多,不会出现”改了背景却把主角脸糊掉”的尴尬。
加上安卓生态加持,谷歌在Android 17和Wear OS 7中全面集成Gemini Omni及Lyria3多模态模型,基本不用太担心商业化的问题。
从技术演进看,Gemini Omni Flash是Gemini主架构的进化,将此前独立的视频(Veo)、图像(Nano Banana)、音乐(Lyria)及交互(Genie)生成与理解能力融合进单一模型框架,首次使模型同时具备了理解世界和生成世界的能力。这种原生多模态编码设计,让所有模态共享统一语义表示空间,实现跨模态信息无缝转换。
Coding谷歌暂时追不上,但多模态这张牌桌,谷歌可能是唯一能组齐一套牌的玩家。
五、行业影响与展望
Gemini Omni Flash的开放API,意味着视频生成正式进入生产级应用阶段。其MoE架构天然支持参数规模的线性扩展,当未来需要处理更复杂的多模态输入时,只需增加新的”专家模块”,不会因参数爆炸导致延迟飙升。这决定了它不是过渡方案,而是面向未来三年的生产基座。