
摘要:Sakana Fugu 是日本 AI 独角兽 Sakana AI 于 2026 年 6 月 22 日正式商业化发布的多智能体编排系统,以单一 OpenAI 兼容 API 的形式对外提供服务。它并非传统意义上”更大更强”的单体基座模型,而是一个专门学习”何时调度、调度谁、如何整合”的编排型语言模型,通过动态调用底层可替换的 Worker 模型池完成复杂多步骤任务。旗舰版本 Fugu Ultra 在 SWE-Bench Pro、GPQA-Diamond、LiveCodeBench、Humanity’s Last Exam 等硬核基准上接近或超越 Fable 5、Mythos Preview、Opus 4.8、GPT-5.5 等前沿单模型,Sakana AI 将其定位为降低单一供应商依赖、保障”AI 主权”的现实蓝图。
官网入口:https://sakana.ai/fugu
技术报告:https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf
控制台:https://console.sakana.ai/login
一、产品定位与发布背景
1.1 发布主体
Sakana AI 是一家 2023 年 7 月成立于东京的日本 AI 独角兽,由 Transformer 论文第五作者 Llion Jones 联合 David Ha、Ren Ito 创办,公司名”Sakana”取自日语”魚”(さかな),寓意借鉴鱼群基于简单规则协同涌现群体智能的思路,以小模型组合逼近大模型能力。公司此前已发布 The AI Scientist、Continuous Thought Machines、AB-MCTS 探索引擎及企业研究代理 Sakana Marlin 等成果。
1.2 Fugu 的产品定位
Fugu(河豚)是一个 LLM,但它并不直接回答用户问题,其核心职能是”决定让谁来回答”。
- 多智能体编排系统(Multi-Agent Orchestration System):将完整的多智能体协作流程封装为单一基础模型对外输出,用户调用一个 API 即可获得经过拆解、委派、验证、合成后的最终答案,中间调度过程对调用方透明。
- 编排型语言模型(Orchestrator Model):区别于以参数规模和训练数据量取胜的单体大模型,Fugu 的训练目标是学习”何时委派任务、Agent 之间如何通信、如何将多方结果整合为可靠答案”,即把编排能力本身模型化。
- AI 主权蓝图(AI Sovereignty Blueprint):底层 Worker 模型池完全可替换,当某家供应商因出口管制或政策变化断供时,Fugu 可动态绕开并切换至其他可用模型,规避单一供应商锁定风险。
1.3 发布动因
Sakana AI 在博客中提出,过去几年 AI 进步主要依赖暴力堆算力与数据,但现实复杂任务所需的专业知识已超出单一模型能力边界;近期 Anthropic 旗下 Fable、Mythos 等模型被施加出口管制的事件,进一步暴露了组织乃至国家将关键基础设施寄托于单一供应商 API 的系统性弱点。Fugu 的设计正是对”越大越好”范式与单点依赖风险的双重回应。
二、核心技术原理
2.1 研究基础
Fugu 的技术路线建立在 Sakana AI 发表于 ICLR 2026 的两篇论文之上:
- TRINITY:提出一种轻量级”进化协调器”,自适应地为不同任务分配 Thinker(思考者)、Worker(执行者)、Verifier(验证者)三种角色,协调器本身通过进化算法优化,不依赖人工设定的调度规则。
- Conductor:通过强化学习训练出一个能够动态选择模型、规划多步工作流的编排主控模型,将异构大模型视为即插即用的集体智能网络。
2.2 四大基础机制
技术报告将 Fugu 的工作机制归纳为四个环节:
- 问题类型识别(Task Classification):判断输入属于代码、数学、推理、信息检索、科学分析还是多模态任务,这是后续派活逻辑的起点。
- Worker 模型选择(Worker Selection):Fugu 被训练学会在特定问题上调用特定模型;即使在同一类任务(如竞赛编程)内部,不同模型也可能分别擅长直接实现、制定解题计划或组合多种算法思路,编排器需将这些细微差异纳入决策。
- Agent 工作流设计(Agentic Workflow Planning):对复杂问题,Fugu Ultra 在模型内部以自然语言生成完整工作流,包括任务拆分、子任务分配、上下文共享策略与最终答案合成。
- 基于反馈的策略优化(Feedback-driven Optimization):训练过程除监督微调外,还引入进化算法与强化学习,用真实任务结果反向优化编排策略,使协调行为持续向”合适的模型做合适的事”收敛。
2.3 自适应递归纠错
- 自适应递归纠错(Adaptive Recursive Self-Correction):模型在运行过程中可检查先前输出并自动启动修正程序,用户可通过调整递归深度控制算力消耗与延迟的权衡。
2.4 模型规格
商业版未公开底座参数规模;论文透露学术版本底层主控模型为 7B 规格的强化学习模型。新浪财经相关报道亦将 Fugu 核心描述为”70 亿参数的强化学习调度器”,自身不执行全部推理任务。
三、版本划分与基准表现
3.1 版本矩阵
| 版本 | 定位 | 适用场景 |
|---|---|---|
| Fugu(标准版) | 平衡性能与延迟 | 日常编码、代码审查、交互式聊天机器人 |
| Fugu Ultra | 调动更深层专家 Agent 池,优化答案质量 | AI 研究、网络安全分析、学术调查、专利分析等高精度任务 |
部分报道中还出现”Fugu Mini”这一低延迟版本名称,与标准版 Fugu 并列,用于对响应速度敏感的轻量场景。
3.2 基准测试表现
Fugu Ultra 在覆盖编程、推理、科学、Agent 能力四个维度的八项基准上与前沿单模型对比,关键数据如下:
| 基准测试 | Fugu | Fugu Ultra | Opus 4.8 | Gemini 3.1 Pro | GPT-5.5 | Fable 5 |
|---|---|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 69.2 | — | 58.6 | — |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 | 89.8 |
| GPQA-Diamond | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 | — |
| Humanity’s Last Exam (HLE) | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 | 53.3 |
| TerminalBench 2.1 | — | 82.1 | — | — | — | 80.4 |
要点说明:
- GPQA-Diamond 95.5:研究生级别科学问答,目前公开可用模型中的最高分。
- SWE-Bench Pro 73.7:超越 Opus 4.8(69.2)与 GPT-5.5(58.6)。
- HLE 50.0:略超 Opus 4.8,较 Claude Fable 5 低 3.3 分。
- TerminalBench 2.1 82.1:超越 Fable 5 的 80.4。
- 重要前提:上述成绩是在 Worker 模型池中不包含 Claude Fable 5 与 Mythos Preview 的情况下取得的,二者仅作为对比靶模。
四、应用场景与典型实战案例
4.1 目标场景
Fugu 系列适用于对精度、深度与多步骤协作有较高要求的任务域,包括但不限于:自动化机器学习研究、网络安全分析、学术与专利调查、金融时间序列预测、机械 CAD 设计、古籍识别、棋类对弈等。
4.2 官方实战案例
Sakana AI 公布了六组跨领域实战对比,Fugu 在各项中均超过 Gemini 3.1 Pro、Claude Opus 4.8 与 GPT-5.5:
- AutoResearch(自动化 ML 研究):Fugu Ultra 自主运行 123 次实验,取得最优 BPB 得分 0.9774 ± 0.0019。
- 日文古籍识别:处理日本历史文献阅读顺序恢复任务,NED 达 0.80,其他模型仅为 0.24 或直接失败。
- 魔方求解:Fugu Ultra 仅用 19 步解开魔方,为参评模型中步数最短。
- CAD 机械设计:设计出可工作的虹膜机构,其他模型产出存在间隙或设计不完整。
- 国际象棋:连续四局对弈保持 100% 准确率。
- 金融时间序列预测:50 周股票交易回测实现 +19.43% 平均回报,其他模型均低于 15%。
五、接入方式与计费模式
5.1 接入方式
Fugu 对外提供兼容 OpenAI 格式的单一 API,开发者无需改造现有调用链即可替换接入;底层多智能体调度对调用方完全透明。系统此前已在 Sakana AI 内部使用,现结束 Beta 测试面向公众开放,并提供早期 Beta 申请通道。
5.2 计费模式
提供订阅制与按量计费两种方式:
订阅制(个人用户)
| 套餐 | 月费 |
|---|---|
| Standard | 20 美元 |
| Pro | 100 美元 |
| Max | 200 美元 |
按量计费
- 输入:每百万 tokens 5 美元(超过 27.2 万 tokens 后为 10 美元)
- 输出:每百万 tokens 30 美元(超过 27.2 万 tokens 后为 45 美元)
作为参照,Opus 4.8 输入为每百万 tokens 15 美元、输出 75 美元;Fugu Ultra 输入价格约为其三分之一,输出价格不到其二分之一。
六、行业意义与局限
6.1 范式意义
Sakana AI 在技术报告中明确提出”编排模型将超越传统大模型成为新的前沿方向”。Fugu 的价值不在于替代 GPT、Claude、Gemini 等基座模型,而在于将这些异构模型的能力组合为集体智能,使编排能力本身成为一种独立的竞争力维度。这一思路与其同公司 Marlin 产品所采用的”多 LLM AB-MCTS 架构”一脉相承,均把行业前沿模型视为可插拔的集体智能网络。
6.2 风险与局限
- 基准参考性有限:各类公开基准仅能指明方向,不具备绝对权威性,真实业务表现需以实际任务验证为准。
- 延迟与成本权衡:多步调度与递归纠错会引入额外延迟与算力消耗,标准版与 Ultra 版的取舍需结合任务硬度判断。
- 供应商可用性依赖:Worker 池可替换虽提升韧性,但整体表现仍受限于池内可用模型的能力上限。
- 商业版参数未公开:底座规模、训练数据与调度策略细节缺乏完整披露,外部复现与独立评估存在门槛。
文章来源与版权说明
文章来源:本文由大国 AI 导航(daguoai.com)基于 Sakana AI 官方博客、Fugu 技术报告及公开媒体报道整理撰写,主要参考来源包括 Sakana AI 官网(sakana.ai)、SakanaAI GitHub 仓库、智东西、36Kr、PA一线、币界网、新浪财经、Menlo Times 等公开信息渠道。
版权说明:本文版权归大国 AI 导航(daguoai.com)所有,未经书面授权,任何单位或个人不得擅自复制、转载、摘编或用于其他商业用途。如需转载或引用,请保留原文链接及版权声明,并注明出处为大河 AI 导航(daguoai.com)。文中涉及的”Fugu””Sakana AI”等名称及商标归其 respective 所有者所有,本文仅作技术与产品信息科普之用,不代表与 Sakana AI 存在任何商业合作或代言关系。文中基准数据均引自公开技术报告,实际表现以官方最新披露为准。
数据评估
关于Fugu AI特别声明
本站大国Ai提供的Fugu AI都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由大国Ai实际控制,在2026年6月23日 上午10:07收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,大国Ai不承担任何责任。
相关导航

百度心响是百度基于文心一言大模型(4.5-5.0)开发的C端AI助手,集成了智能问答、AI搜索、文档解析、代码生成、图像理解等核心功能。

通义万象2.6
通义万象2.6于2025年12月16日正式发布,首次在国内实现角色扮演、音画同步与多镜头叙事三大核心功能。

OpenHuman
摘要:OpenHuman 是由 Tiny Humans AI...
Gemini 3.5 Pro
Gemini 3.5 Pro:定位为 Gemini 家族中的长上下文、强推理、多模态 Pro 级模型

ChatGPT Agent:从“问答”到“行动”的AI智能体革命
ChatGPT Agent是OpenAI于2025年7月推出的AI智能体,具备自主思考与行动能力,能够通过虚拟计算机环境完成复杂任务(如数据分析、PPT制作、行程规划)。

GPT-5.2
摘要: GPT-5.2是OpenAI于2025年12月11日...

Qwen3.6-Plus
Qwen3.6-Plus 是阿里推出的新一代大语言模型,定位为 Qwen Plus 系列的旗舰预览版,主打“强推理 + 长上下文 + 强智能体”能力。

Claude Opus 4.7
Claude Opus 4.7 是 Anthropic 于 2026 年 4 月 16 日发布的新一代旗舰大模型,定位于复杂推理、编程与生产级智能体工作流。
暂无评论...
