谷歌深夜开源深度研究Agent,性能比肩GPT-5 Pro但成本仅为十分之一

Ai资讯3周前发布 大国Ai
265 0 0

12月12日消息,在AI智能体竞赛的关键节点,谷歌于今日凌晨先于OpenAI,连续发布三项重磅Agent技术更新,旨在巩固其在自动化深度研究领域的领先地位,并大幅降低开发与应用门槛。此次发布的核心是升级并开放其旗舰产品——Gemini Deep Research Agent,同时开源了全新的评估基准DeepSearchQA,并推出了旨在简化开发的Interactions API。谷歌宣称,其深度研究智能体在关键基准测试中已达到最先进水平(SOTA),且成本远低于主要竞争对手。

谷歌深夜开源深度研究Agent,性能比肩GPT-5 Pro但成本仅为十分之一

核心摘要:性能突破与成本优势

谷歌DeepMind产品经理Lukas Haas在社交平台X上公布的数据显示,新版Gemini Deep Research Agent在谷歌内部构建的全面基准测试集“Humanity’s Last Exam”(HLE)上取得了46.4% 的得分。在与网络研究能力直接相关的“BrowseComp”基准测试中,其表现与OpenAI的GPT-5 Pro相当,但关键优势在于成本——据称其价格仅为后者的十分之一左右

此次更新标志着谷歌将此前主要面向高级订阅用户的功能,正式向开发者社区开放,并提供了配套的评估工具和开发接口,试图构建一个更开放的Agent生态系统。

一、Deep Research Agent:从“研究助理”到“行业专家”的进化

Gemini Deep Research Agent并非全新概念,其早期版本已能展示出强大的自动化研究能力。例如,在今年4月的演示中,搭载Gemini 2.5 Pro的Deep Research能在5分钟内自动浏览339个网站,生成一篇长达46页、包含详细数据来源的纳米技术学术论文。它还能将复杂报告转化为10分钟播客,极大提升了信息消化效率。

本次更新基于更强大的Gemini 3 Pro模型,谷歌称其为“迄今为止最真实的模型”,专门训练以减少幻觉并最大化复杂任务中的报告质量。其核心能力提升体现在三个方面:

  1. 增强的网页搜索与解析能力:新版本能更深入地抓取网站特定数据,并优化了对复杂网页内容的解析。这回应了行业对研究智能体需处理更丰富信息来源和复杂网页结构的呼声。
  2. 更优的成本控制:谷歌优化了Agent的工作流程,旨在以更低的计算成本生成深度研究报告,这直接带来了前述一个数量级的成本优势。
  3. 专业场景的深入应用:该Agent已在金融服务、生物技术和市场调研等高精度要求领域进行测试和应用。例如,沃顿商学院教授曾用它分析一款新型食品热量检测设备的市场规模,其完成的深度分析通常需要人类专家数小时。

对于开发者而言,该Agent提供了强大的工具集成能力:它能统一分析用户上传的文档和公共网络数据,支持超长上下文输入,允许用户精确定义报告结构、数据表格格式,并提供细粒度的来源引用,输出还支持JSON模式以便于程序化解析。

二、DeepSearchQA:为深度研究智能体设立新“考场”

随着研究型智能体的能力飞速发展,业界缺乏能准确衡量其复杂研究能力的权威基准。现有的问答(QA)数据集已容易被大模型的参数化知识“攻破”,难以有效评估智能体在真实、多步骤网络研究任务中的表现。

为此,谷歌开源了全新的基准测试DeepSearchQA。该基准包含900个手工设计的“因果链”任务,覆盖17个不同领域。与简单的事实检索不同,这些任务要求智能体进行多步推理和信息综合,最终生成详尽、全面的答案集合,从而评估其研究的全面性、准确性和信息检索的记忆能力

DeepSearchQA的另一个重要作用是作为衡量“思考时长”效率的工具。谷歌内部评估发现,允许Agent执行更多搜索与推理步骤能显著提升其性能。该基准已在Kaggle平台开源,旨在推动整个领域研究能力的迭代优化。

三、Interactions API与A2A协议:构建智能体协作生态

为降低开发者构建复杂Agent应用的门槛,谷歌推出了Interactions API。该API通过Google AI Studio中的Gemini API以测试版形式开放,为与Gemini模型及各类Agent的交互提供了统一界面。

该API的设计旨在解决现代Agent应用开发中的痛点:

  • 服务器端状态管理:将复杂的对话历史管理卸载到服务器,简化客户端代码,减少错误,并可能通过提高缓存命中率来降低成本。
  • 支持长期运行任务:开发者可以将需要长时间推理的任务(如深度研究)卸载到服务器执行,无需保持客户端连接。
  • 远程工具调用:模型可以直接调用遵循模型上下文协议(MCP) 的服务器工具,便于接入自定义数据源和功能。

此次发布是谷歌在智能体基础设施层面的持续布局。早在今年4月,谷歌就发布了Agent2Agent(A2A)开放协议,旨在让不同供应商开发的AI智能体能够像使用“社交软件”一样互相通信与协作。结合此次的Interactions API和之前开源的Agent开发套件(ADK),谷歌正试图构建一个从底层协议、开发工具到运行时API的完整智能体开发生态。

结语:谷歌的“组合拳”与生态野心

此次深夜更新,是谷歌在AI智能体赛道发起的一次集中攻势。通过将已验证能力的Deep Research Agent开源化、提供权威的评估基准、并完善开发者工具链,谷歌正试图从技术、标准和生态三个层面确立领导地位。

未来,谷歌计划进一步丰富Deep Research的输出形式,如原生生成图表以支持可视化报告,并通过MCP协议增强其连接自定义数据源的能力,最终将其引入企业级平台Vertex AI。这一系列动作表明,谷歌的野心不止于提供一个好用的研究工具,更在于定义下一代自动化研究的工作流程与标准,将“数字福尔摩斯”的能力赋予每一个开发者和企业。


文章来源:本文综合编译自谷歌官方技术博客、产品经理Lukas Haas的社交平台发言,并参考了澎湃新闻、新智元等媒体对谷歌Deep Research及A2A协议的历史报道。DeepSearchQA基准已在Kaggle平台开源。

© 版权声明

相关文章

暂无评论

none
暂无评论...