谷歌Gemini 3 Flash解锁“Agentic Vision”:让AI看图从“瞎猜”变“侦探查案”

Ai资讯6天前发布 大国Ai
112 0 0

摘要:2026年1月27日,谷歌DeepMind为轻量级模型Gemini 3 Flash推出了名为“Agentic Vision”(代理视觉/智能体视觉)的颠覆性功能。这项技术彻底改变了AI处理图像的传统方式,使其从单次、被动的“静态扫描”转变为主动、多步骤的“调查分析”。通过引入“思考-行动-观察”的闭环,并融合代码执行能力,AI能够像侦探一样主动放大、裁剪、标注图像细节来寻找视觉证据,从而将多项视觉任务的准确率提升了5%-10%。


一、 核心原理:从“看一眼”到“查一遍”的思维闭环

传统AI模型在处理图像时,通常只进行一次全局扫描,对于微小的芯片序列号、模糊的远处路牌等细节,往往因无法看清而只能依靠猜测。Agentic Vision的核心突破在于,它为AI植入了一套名为 “Think-Act-Observe”(思考-行动-观察) 的主动推理机制。

  1. 思考(Think):模型首先分析用户查询(如“这张建筑图纸符合消防规范吗?”)和初始图像,并制定一个多步骤的调查计划,明确需要重点检查哪些区域。
  2. 行动(Act):这是最关键的一步。模型会自动生成并执行Python代码来主动操作图像。例如,编写代码裁剪出屋顶边缘进行放大,或是在手指图像上绘制带编号的边界框以便精确计数。
  3. 观察(Observe):经过代码处理后的高清图像或分析结果(如统计数字)会被追加到模型的上下文中。模型基于这些新的、更清晰的“证据”进行二次观察和验证,最终给出一个基于像素级分析的准确答案。

这套机制让Gemini 3 Flash从被动的图像识别器,变成了一个能主动调用工具进行调查的智能体。

谷歌Gemini 3 Flash解锁“Agentic Vision”:让AI看图从“瞎猜”变“侦探查案”

二、 如何获取与使用:开发者与普通用户指南

目前,这项功能已经面向不同用户群体开放,可以通过以下途径体验:

1. 对于开发者/技术用户:通过API调用

  • 使用平台:Google AI Studio 或 Vertex AI(谷歌云机器学习平台)。
  • 启用方法:在调用Gemini 3 Flash模型的API时,在配置中启用 “代码执行(Code Execution)” 工具即可。
  • 简单示例:开发者可以上传一张图片,并附带诸如“放大表情踏板并告诉我有多少个”的指令。模型将自动生成和执行裁剪放大代码,并返回精确结果。

2. 对于普通用户:通过Gemini应用

  • 使用方式:功能正在Gemini官方应用中逐步推送。用户可以在模型下拉菜单中选择 “Thinking”(思考)模式来访问。
  • 使用场景:上传一份模糊的说明书、一张复杂的图表或远处路牌的照片,AI会自动启用Agentic Vision能力,放大关键细节并提取准确信息,无需用户手动圈选。

三、 关键应用场景:解决传统AI的视觉痛点

Agentic Vision在多个需要精细分析的场景中展现出巨大价值,有效解决了传统视觉模型的常见问题:

  • 建筑图纸与专业文档审核:在建筑计划验证平台PlanCheckSolver.com的案例中,该功能允许AI迭代式地检查高分辨率图纸的细节(如屋顶边缘),通过代码裁剪和分析特定区域,将规范符合性检查的准确率提升了5%
  • 高精度图像标注与计数:面对“数清这只手上的数字”这类任务,AI不再容易因遮挡或光线而数错。它会通过执行代码,在图像上为每个识别出的目标绘制边界框和标签,像使用“视觉草稿纸”一样确保计数零误差
  • 视觉数学与数据分析:传统大模型在解读图表进行数学运算时容易产生“幻觉”。现在,Gemini 3 Flash可以直接识别图表中的数据,编写Python代码调用Matplotlib等库重新绘制图表并进行精确计算,用可验证的代码执行取代了概率性猜测

未来展望:谷歌表示,当前Gemini 3 Flash已能隐式决定何时需要放大细节,未来将致力于使旋转图像、视觉计算等行为完全自动化,无需用户提示。此外,还有计划为该功能集成更多工具(如网络搜索),并将其扩展到Gemini 3 Pro等其他尺寸的模型上。

文章来源:本文信息综合编译自谷歌DeepMind官方博客、36氪、IT之家、品玩等媒体报道。

© 版权声明

相关文章

暂无评论

none
暂无评论...