摘要:2026年1月27日,谷歌DeepMind为轻量级模型Gemini 3 Flash推出了名为“Agentic Vision”(代理视觉/智能体视觉)的颠覆性功能。这项技术彻底改变了AI处理图像的传统方式,使其从单次、被动的“静态扫描”转变为主动、多步骤的“调查分析”。通过引入“思考-行动-观察”的闭环,并融合代码执行能力,AI能够像侦探一样主动放大、裁剪、标注图像细节来寻找视觉证据,从而将多项视觉任务的准确率提升了5%-10%。
传统AI模型在处理图像时,通常只进行一次全局扫描,对于微小的芯片序列号、模糊的远处路牌等细节,往往因无法看清而只能依靠猜测。Agentic Vision的核心突破在于,它为AI植入了一套名为 “Think-Act-Observe”(思考-行动-观察) 的主动推理机制。
这套机制让Gemini 3 Flash从被动的图像识别器,变成了一个能主动调用工具进行调查的智能体。
目前,这项功能已经面向不同用户群体开放,可以通过以下途径体验:
1. 对于开发者/技术用户:通过API调用
2. 对于普通用户:通过Gemini应用
Agentic Vision在多个需要精细分析的场景中展现出巨大价值,有效解决了传统视觉模型的常见问题:
未来展望:谷歌表示,当前Gemini 3 Flash已能隐式决定何时需要放大细节,未来将致力于使旋转图像、视觉计算等行为完全自动化,无需用户提示。此外,还有计划为该功能集成更多工具(如网络搜索),并将其扩展到Gemini 3 Pro等其他尺寸的模型上。
文章来源:本文信息综合编译自谷歌DeepMind官方博客、36氪、IT之家、品玩等媒体报道。