核心摘要:2026年3月11日,谷歌DeepMind正式发布了业界首个原生多模态嵌入模型——Gemini Embedding 2(模型ID:gemini-embedding-2-preview)。该模型基于Gemini架构构建,其革命性在于将文本、图像、视频、音频和文档五种模态的数据,直接映射到同一个统一的向量空间中。这意味着开发者可以用一段文字去搜索相关的图片或视频,也可以用一张图片去匹配对应的音频或文档,真正实现了跨模态的语义理解和检索,被誉为“多模态RAG的新基准”。
gemini-embedding-2-preview
目前,该模型已通过 Gemini API 和 Google Cloud Vertex AI 平台提供公开预览,开发者可即时接入。
传统的多模态处理方案如同“拼乐高”,需要组合多个专用模型(如CLIP处理图像、Whisper转录音频),再将生成的向量进行对齐,流程复杂且存在语义损耗。Gemini Embedding 2从底层改变了这一范式:
task_type
RETRIEVAL_QUERY
RETRIEVAL_DOCUMENT
SEMANTIC_SIMILARITY
根据谷歌公布的基准测试结果,Gemini Embedding 2在多项任务中确立了新的性能标杆:
这一技术突破将直接赋能多个高价值应用场景:
开发者如何开始: 模型已提供Python、JavaScript、Go等多种语言的SDK,并官宣支持LangChain、LlamaIndex、Weaviate、Qdrant、Chroma等主流开发框架和向量数据库。需要注意的是,新模型的向量空间与旧版本(如gemini-embedding-001)不兼容,迁移时需要重新索引数据。
gemini-embedding-001
文章来源:本文核心信息综合自大国AI导航提供的资讯稿[^用户文档],并参考了谷歌官方API文档及多家科技媒体(如新浪科技、金融界等)于2026年3月11日的同步报道,对模型细节、性能数据及生态信息进行了补全。