Fugu AI

1小时前更新 8 0 0

Sakana Fugu 是日本 AI 独角兽 Sakana AI 发布的多智能体编排系统,以单一 OpenAI 兼容 API 的形式对外提供服务。

收录时间:
2026-06-23

摘要:Sakana Fugu 是日本 AI 独角兽 Sakana AI 于 2026 年 6 月 22 日正式商业化发布的多智能体编排系统,以单一 OpenAI 兼容 API 的形式对外提供服务。它并非传统意义上”更大更强”的单体基座模型,而是一个专门学习”何时调度、调度谁、如何整合”的编排型语言模型,通过动态调用底层可替换的 Worker 模型池完成复杂多步骤任务。旗舰版本 Fugu Ultra 在 SWE-Bench Pro、GPQA-Diamond、LiveCodeBench、Humanity’s Last Exam 等硬核基准上接近或超越 Fable 5、Mythos Preview、Opus 4.8、GPT-5.5 等前沿单模型,Sakana AI 将其定位为降低单一供应商依赖、保障”AI 主权”的现实蓝图。

官网入口https://sakana.ai/fugu
技术报告https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf
控制台https://console.sakana.ai/login

一、产品定位与发布背景

1.1 发布主体

Sakana AI 是一家 2023 年 7 月成立于东京的日本 AI 独角兽,由 Transformer 论文第五作者 Llion Jones 联合 David Ha、Ren Ito 创办,公司名”Sakana”取自日语”魚”(さかな),寓意借鉴鱼群基于简单规则协同涌现群体智能的思路,以小模型组合逼近大模型能力。公司此前已发布 The AI Scientist、Continuous Thought Machines、AB-MCTS 探索引擎及企业研究代理 Sakana Marlin 等成果。

1.2 Fugu 的产品定位

Fugu(河豚)是一个 LLM,但它并不直接回答用户问题,其核心职能是”决定让谁来回答”。

  • 多智能体编排系统(Multi-Agent Orchestration System):将完整的多智能体协作流程封装为单一基础模型对外输出,用户调用一个 API 即可获得经过拆解、委派、验证、合成后的最终答案,中间调度过程对调用方透明。
  • 编排型语言模型(Orchestrator Model):区别于以参数规模和训练数据量取胜的单体大模型,Fugu 的训练目标是学习”何时委派任务、Agent 之间如何通信、如何将多方结果整合为可靠答案”,即把编排能力本身模型化。
  • AI 主权蓝图(AI Sovereignty Blueprint):底层 Worker 模型池完全可替换,当某家供应商因出口管制或政策变化断供时,Fugu 可动态绕开并切换至其他可用模型,规避单一供应商锁定风险。

1.3 发布动因

Sakana AI 在博客中提出,过去几年 AI 进步主要依赖暴力堆算力与数据,但现实复杂任务所需的专业知识已超出单一模型能力边界;近期 Anthropic 旗下 Fable、Mythos 等模型被施加出口管制的事件,进一步暴露了组织乃至国家将关键基础设施寄托于单一供应商 API 的系统性弱点。Fugu 的设计正是对”越大越好”范式与单点依赖风险的双重回应。

二、核心技术原理

2.1 研究基础

Fugu 的技术路线建立在 Sakana AI 发表于 ICLR 2026 的两篇论文之上:

  • TRINITY:提出一种轻量级”进化协调器”,自适应地为不同任务分配 Thinker(思考者)、Worker(执行者)、Verifier(验证者)三种角色,协调器本身通过进化算法优化,不依赖人工设定的调度规则。
  • Conductor:通过强化学习训练出一个能够动态选择模型、规划多步工作流的编排主控模型,将异构大模型视为即插即用的集体智能网络。

2.2 四大基础机制

技术报告将 Fugu 的工作机制归纳为四个环节:

  1. 问题类型识别(Task Classification):判断输入属于代码、数学、推理、信息检索、科学分析还是多模态任务,这是后续派活逻辑的起点。
  2. Worker 模型选择(Worker Selection):Fugu 被训练学会在特定问题上调用特定模型;即使在同一类任务(如竞赛编程)内部,不同模型也可能分别擅长直接实现、制定解题计划或组合多种算法思路,编排器需将这些细微差异纳入决策。
  3. Agent 工作流设计(Agentic Workflow Planning):对复杂问题,Fugu Ultra 在模型内部以自然语言生成完整工作流,包括任务拆分、子任务分配、上下文共享策略与最终答案合成。
  4. 基于反馈的策略优化(Feedback-driven Optimization):训练过程除监督微调外,还引入进化算法与强化学习,用真实任务结果反向优化编排策略,使协调行为持续向”合适的模型做合适的事”收敛。

2.3 自适应递归纠错

  • 自适应递归纠错(Adaptive Recursive Self-Correction):模型在运行过程中可检查先前输出并自动启动修正程序,用户可通过调整递归深度控制算力消耗与延迟的权衡。

2.4 模型规格

商业版未公开底座参数规模;论文透露学术版本底层主控模型为 7B 规格的强化学习模型。新浪财经相关报道亦将 Fugu 核心描述为”70 亿参数的强化学习调度器”,自身不执行全部推理任务。

三、版本划分与基准表现

3.1 版本矩阵

版本 定位 适用场景
Fugu(标准版) 平衡性能与延迟 日常编码、代码审查、交互式聊天机器人
Fugu Ultra 调动更深层专家 Agent 池,优化答案质量 AI 研究、网络安全分析、学术调查、专利分析等高精度任务

部分报道中还出现”Fugu Mini”这一低延迟版本名称,与标准版 Fugu 并列,用于对响应速度敏感的轻量场景。

3.2 基准测试表现

Fugu Ultra 在覆盖编程、推理、科学、Agent 能力四个维度的八项基准上与前沿单模型对比,关键数据如下:

基准测试 Fugu Fugu Ultra Opus 4.8 Gemini 3.1 Pro GPT-5.5 Fable 5
SWE-Bench Pro 59.0 73.7 69.2 58.6
LiveCodeBench 92.9 93.2 87.8 88.5 85.3 89.8
GPQA-Diamond 95.5 95.5 92.0 94.3 93.6
Humanity’s Last Exam (HLE) 47.2 50.0 49.8 44.4 41.4 53.3
TerminalBench 2.1 82.1 80.4

要点说明:

  • GPQA-Diamond 95.5:研究生级别科学问答,目前公开可用模型中的最高分。
  • SWE-Bench Pro 73.7:超越 Opus 4.8(69.2)与 GPT-5.5(58.6)。
  • HLE 50.0:略超 Opus 4.8,较 Claude Fable 5 低 3.3 分。
  • TerminalBench 2.1 82.1:超越 Fable 5 的 80.4。
  • 重要前提:上述成绩是在 Worker 模型池中不包含 Claude Fable 5 与 Mythos Preview 的情况下取得的,二者仅作为对比靶模。

四、应用场景与典型实战案例

4.1 目标场景

Fugu 系列适用于对精度、深度与多步骤协作有较高要求的任务域,包括但不限于:自动化机器学习研究、网络安全分析、学术与专利调查、金融时间序列预测、机械 CAD 设计、古籍识别、棋类对弈等。

4.2 官方实战案例

Sakana AI 公布了六组跨领域实战对比,Fugu 在各项中均超过 Gemini 3.1 Pro、Claude Opus 4.8 与 GPT-5.5:

  1. AutoResearch(自动化 ML 研究):Fugu Ultra 自主运行 123 次实验,取得最优 BPB 得分 0.9774 ± 0.0019。
  2. 日文古籍识别:处理日本历史文献阅读顺序恢复任务,NED 达 0.80,其他模型仅为 0.24 或直接失败。
  3. 魔方求解:Fugu Ultra 仅用 19 步解开魔方,为参评模型中步数最短。
  4. CAD 机械设计:设计出可工作的虹膜机构,其他模型产出存在间隙或设计不完整。
  5. 国际象棋:连续四局对弈保持 100% 准确率。
  6. 金融时间序列预测:50 周股票交易回测实现 +19.43% 平均回报,其他模型均低于 15%。

五、接入方式与计费模式

5.1 接入方式

Fugu 对外提供兼容 OpenAI 格式的单一 API,开发者无需改造现有调用链即可替换接入;底层多智能体调度对调用方完全透明。系统此前已在 Sakana AI 内部使用,现结束 Beta 测试面向公众开放,并提供早期 Beta 申请通道。

5.2 计费模式

提供订阅制与按量计费两种方式:

订阅制(个人用户)

套餐 月费
Standard 20 美元
Pro 100 美元
Max 200 美元

按量计费

  • 输入:每百万 tokens 5 美元(超过 27.2 万 tokens 后为 10 美元)
  • 输出:每百万 tokens 30 美元(超过 27.2 万 tokens 后为 45 美元)

作为参照,Opus 4.8 输入为每百万 tokens 15 美元、输出 75 美元;Fugu Ultra 输入价格约为其三分之一,输出价格不到其二分之一。

六、行业意义与局限

6.1 范式意义

Sakana AI 在技术报告中明确提出”编排模型将超越传统大模型成为新的前沿方向”。Fugu 的价值不在于替代 GPT、Claude、Gemini 等基座模型,而在于将这些异构模型的能力组合为集体智能,使编排能力本身成为一种独立的竞争力维度。这一思路与其同公司 Marlin 产品所采用的”多 LLM AB-MCTS 架构”一脉相承,均把行业前沿模型视为可插拔的集体智能网络。

6.2 风险与局限

  • 基准参考性有限:各类公开基准仅能指明方向,不具备绝对权威性,真实业务表现需以实际任务验证为准。
  • 延迟与成本权衡:多步调度与递归纠错会引入额外延迟与算力消耗,标准版与 Ultra 版的取舍需结合任务硬度判断。
  • 供应商可用性依赖:Worker 池可替换虽提升韧性,但整体表现仍受限于池内可用模型的能力上限。
  • 商业版参数未公开:底座规模、训练数据与调度策略细节缺乏完整披露,外部复现与独立评估存在门槛。

文章来源与版权说明

文章来源:本文由大国 AI 导航(daguoai.com)基于 Sakana AI 官方博客、Fugu 技术报告及公开媒体报道整理撰写,主要参考来源包括 Sakana AI 官网(sakana.ai)、SakanaAI GitHub 仓库、智东西、36Kr、PA一线、币界网、新浪财经、Menlo Times 等公开信息渠道。

版权说明:本文版权归大国 AI 导航(daguoai.com)所有,未经书面授权,任何单位或个人不得擅自复制、转载、摘编或用于其他商业用途。如需转载或引用,请保留原文链接及版权声明,并注明出处为大河 AI 导航(daguoai.com)。文中涉及的”Fugu””Sakana AI”等名称及商标归其 respective 所有者所有,本文仅作技术与产品信息科普之用,不代表与 Sakana AI 存在任何商业合作或代言关系。文中基准数据均引自公开技术报告,实际表现以官方最新披露为准。

数据评估

Fugu AI浏览人数已经达到8,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:Fugu AI的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找Fugu AI的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于Fugu AI特别声明

本站大国Ai提供的Fugu AI都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由大国Ai实际控制,在2026年6月23日 上午10:07收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,大国Ai不承担任何责任。

相关导航

暂无评论

none
暂无评论...