模型速度进入“4G时代”?实测Gemini 3.5 Flash:Agent效率升维,但性价比争议犹存

Ai资讯2小时前发布 大国Ai
15 0 0

摘要:谷歌最新发布的Gemini 3.5 Flash模型,以289 tokens/秒的惊人输出速度和低至65毫秒的首token延迟,重新定义了AI模型的“实时”体验。实测显示,其在Agent长程编程任务中效率远超Qwen3.7-Max等旗舰模型,将开发任务时间从55分钟压缩至10分钟,彰显“速度优先”策略对智能体时代的颠覆性意义。然而,其token成本更高、在抽象推理等维度的短板,也引发了关于“性价比”与“全面性”的行业争论。


天下武功,唯快不破。但当“快”以4倍于同行的幅度突破临界点,它改变的不仅是招式,而是整个游戏的规则。

本周,谷歌I/O大会发布的Gemini 3.5 Flash模型,正是这样一位“速度型”选手。隔日,阿里巴巴紧随其后发布Qwen3.7-Max,两者均高调宣称专为Agent场景深度优化。这看似又是一场熟悉的“模型跑分大战”,但两天的深度实测揭示了一个更深层的转折:当AI模型的响应速度从“能用”跨越至“实时”,Agent的体验与生产力边界正在发生质变。

01 速度奇袭:一个“非旗舰”的Agent性能王者

Gemini 3.5 Flash的定位颇具颠覆性。尽管属于Flash系列,其在Agent核心基准测试上的表现却令人侧目:在MCP Atlas(多步骤工作流测试)上取得83.6%的SOTA成绩,超越了GPT-5.5和Claude Opus 4.7;在编程测试Terminal-Bench 2.1上得分76.2%,甚至反超自家上一代旗舰Gemini 3.1 Pro。

这揭示了一个趋势:专为速度设计的模型,在“干活”能力上已逼近甚至超越传统旗舰。其核心武器是极致的速度——289 tokens/秒的输出速度和65毫秒的首token延迟,约为其他前沿模型的4倍。定价上,它也极具攻击性,输入1.5美元/百万token,输出9美元/百万token,远低于Claude Opus 4.7等模型。

模型速度进入“4G时代”?实测Gemini 3.5 Flash:Agent效率升维,但性价比争议犹存

然而,速度与成本的背后存在矛盾。开发者测试及机构Artificial Analysis指出,3.5 Flash的能力可能介于前代Pro与Flash之间,但API价格比上一代贵了3倍。更高的token定价与使用量,导致其运行成本比3 Flash高出5倍多,比3.1 Pro高出75%。谷歌宣称迁移工作负载可节省成本,但“性价比”争议随之而来。

02 实测对决:速度如何重塑Agent体验

将Gemini 3.5 Flash与国产顶级模型Qwen3.7-Max(在Arena盲测中位列国产第一,与全球顶尖模型接近)进行对比,能清晰看见速度的价值。

  1. 轻量文本生成:撰写小诗时,Qwen3.7-Max耗时30秒,中文文笔更优;Gemini 3.5 Flash仅需11秒,体验接近即时对话。在Agent场景中,这种差距是“流畅交互”与“等待机器”的本质区别。
  2. 复杂3D代码生成:生成金门大桥3D场景时,Gemini 3.5 Flash总耗时更短(157秒 vs 204秒),但token消耗是Qwen的2.4倍,意味着在单次任务成本上可能更高。视觉上,Qwen胜在氛围细腻,Gemini胜在结构精准。
  3. 长程Agent编程(决定性差距):实现完整的macOS语音输入应用时,差距骤显。Qwen3.7-Max运行55分钟,仍需人工介入修复编译错误;Gemini 3.5 Flash仅用10分钟,程序一遍运行成功

这10分钟与55分钟的鸿沟,根源在于Agent的工作模式。Agent并非一次性输出,而是反复“生成代码-调用工具-读取反馈-修正代码”的循环。每一轮交互节省的时间,在长程任务中会产生指数级积累。Gemini 3.5 Flash的高吐出速度,使得它在相同周期内能完成远超对手的“思考-行动”循环次数。

03 进入“4G时代”:速度不仅是体验,更是生产力

Gemini 3.5 Flash的体验,如同网络从3G升入4G——从“等待加载”变为“即时获取”。这种变化对Agent的影响是深层次的:

  • 交互体验质变:在AI陪伴、实时助手等场景,毫秒级响应将“与机器对话”变为“与人对话”,彻底改变用户心理模型。
  • 生产力升维:假设一个Agent需24小时完成项目,若模型输出环节快4倍,一天内可挤出数小时有效产出。随着Agent任务从分钟级延长至小时级、甚至如Qwen3.7-Max所宣称的35小时级,速度带来的时间收益将持续放大。
  • 重塑“聪明”的定义:谷歌主动将3.5 Flash的默认推理深度从High降为Medium,以换取速度。这折射出一个关键判断:对于Agent,稳定、高速地执行任务,可能比在极限测试中追求分数更重要。在APEX基准(真实长程任务)上,Gemini 3.5 Flash位居全球第一,便是佐证。

04 短板与未来:偏科的冠军与生态的较量

Gemini 3.5 Flash是典型的“偏科生”。它在抽象推理(ARC-AGI-2)等测试中表现平平,Humanity’s Last Exam得分也落后于自家Pro模型。这是有意为之的取舍,但在需要深度综合推理的任务中,仍是短板。

更重要的是,AI竞赛已是成本、生态与商业模式的综合较量。谷歌虽拥有搜索、邮件、云服务的生态护城河,但其新模型的性价比受疑、资本市场反应冷淡(发布会后股价跌超2%),也提醒着:速度的胜利需建立在可持续的商业模式之上。

与此同时,对手仍在快速迭代。Qwen3.7-Max展示了国产模型在智能体能力上的追赶,特别是在35小时超长程自主任务执行上的潜力。阿里云更同步完成了从芯片到云的“全栈Agent化升级”,构建了另一套体系竞争力。

结论:Gemini 3.5 Flash如同一剂强心针,以激进的速度策略刺破了AI模型发展的惯性思维,清晰揭示了Agent时代的核心准则之一——“快而稳”可能比“慢而全”更具破坏力。它迫使行业重新思考模型能力与响应速度的平衡点。然而,真正的赢家,将是那些既能掌握速度之矛,又能补齐成本与生态之盾的玩家。对于开发者而言,是时候在智能体工具箱里,为“速度”分配一个更高的权重了。


文章来源

  1. 主要观点与测试数据源自极客公园《Gemini 3.5 Flash 实测:当模型速度进入 4G 时代,Agent 的游戏规则变了》
  2. 补充信息参考:
    • 谷歌I/O大会产品细节及市场反馈
    • AI眼镜市场及产业链数据
    • Qwen3.7-Max性能指标及阿里云技术体系升级
© 版权声明

相关文章

暂无评论

none
暂无评论...