Sakana AI 发布 Fugu Ultra：多智能体编排系统对标 Fable 5，重新定义 AI 调用范式

摘要：2026 年 6 月 22 日，日本 AI 公司 Sakana AI 正式发布多智能体编排系统 Fugu 及 Fugu Ultra。与传统”做大模型”的路径不同，Fugu 是一个学会了调度其他模型的 LLM，对外封装为单一 OpenAI 兼容 API。官方基准测试显示，Fugu Ultra 在 SWE-Bench Pro、GPQA-D、LiveCodeBench 等硬核评测中达到或超过 Anthropic Fable 5、Mythos Preview 同级水平，输入价格仅为 Opus 4.8 的三分之一，并具备”无出口管制风险”的地缘韧性。这是 AI 行业从”单体智能”走向”集体智能”的标志性产品。

一、不是更大的模型，而是更聪明的”指挥官”

过去几年，AI 行业的主流叙事是 Scaling Law——模型越大、数据越多、算力越猛，性能就越强。但 Sakana AI 走了一条截然不同的路。Fugu 本身是一个语言模型，但它并不直接回答用户问题，而是”决定让谁来回答”。

Sakana AI 发布 Fugu Ultra：多智能体编排系统对标 Fable 5，重新定义 AI 调用范式

它背后维护着一个动态的 Agent 池，包含各类专长不同的前沿模型。当任务进入时，Fugu 会自主决定：调用哪个模型、分几步完成、是否需要验证结果、甚至是否递归调用自身。整套协调策略没有任何手工设计规则，完全通过强化学习和进化算法”学出来”。

这套设计基于 Sakana AI 在 ICLR 2026 上的两篇论文：

TRINITY：提出轻量级”进化协调器”，自适应地为不同任务分配 Thinker（思考者）、Worker（执行者）、Verifier（验证者）三种角色，协调器通过进化算法优化。
Conductor：通过强化学习训练出”指挥家”，让它自主发现最优的 Agent 通信模式和协作策略。论文核心发现是：RL 训练出来的协调策略往往”非直觉但高效”，人类设计师难以想到那种分工方式。

对用户而言，整个过程是无感的——你调用一个 API，拿到一个结果，中间发生了什么完全透明。Fugu 本质上是一个”学会了当项目经理的 LLM”，它动态从模型池中组装团队，并以人类想不到的高效协作模式完成任务。

二、对标 Fable 5 与 Mythos Preview 的基准成绩

Sakana AI 在公告中明确宣称，Fugu Ultra 与 Anthropic 的 Fable 5 和 Mythos Preview”站在同一水平线上”。这一点值得注意：Fable 5 和 Mythos Preview 受美国出口管制限制，并不在 Fugu 的 Agent 池中，Fugu 是在不调用它们的情况下取得这一成绩的。

核心基准数据如下：

基准测试	Fugu Ultra	Opus 4.8	Gemini 3.1 Pro	GPT-5.5
SWE-Bench Pro	73.7	69.2	54.2	58.6
LiveCodeBench	93.2	87.8	88.5	85.3
GPQA-D	95.5	92.0	94.3	93.6
HLE	50.0	49.8	44.4	41.4
TerminalBench 2.1	82.1	—	—	—

其中 GPQA-D 95.5 分是目前公开可用模型中的最高分；HLE（Humanity’s Last Exam）50.0 分仅比 Fable 5 少 3.3 分。需要客观指出的是，这些数据均为厂商自报，独立第三方评测尚未大规模落地。

三、六个硬核实战案例

除了基准测试，Sakana AI 还展示了六个真实场景案例：

AutoResearch（自动化 ML 研究）：Fugu Ultra 自主运行 123 次实验，取得 BPB 得分 0.9774 ± 0.0019，超过所有前沿竞争者。
日文古籍识别：在日本历史文献阅读顺序恢复任务上达到 NED 0.80，竞品只有 0.24 或直接失败（这点与 Sakana 的日本基因相关）。
魔方求解器：成功解开全部 300 个测试魔方，竞品代码无法运行；300 个测试中步数从未输过（7 胜 293 平 0 负）。
CAD 机械设计：成功设计出可工作的虹膜机构，其他模型产出存在间隙或不完整。
国际象棋（盲棋）：连续四局对弈保持完美准确率。
金融交易：50 周回测中实现 +19.43% 平均回报，其他前沿模型均低于 15%。

这些案例的共同点是——任务”脏、乱、长跑”，超出单模型调用范畴。一位开发者反馈：”如果是一个干净的单次 prompt，你大概还是会直接用 Fable 5 或 Mythos。但任务越复杂、越混乱——涉及分工、验证、综合、代码审查、研究循环、安全评估——这种编排系统就越有意义。”

四、价格策略：显著低于 Opus 4.8

Fugu 兼容 OpenAI API 格式，无需独家 SDK，直接修改 endpoint 即可集成到现有工作流。价格方面提供两种模式：

订阅制（同时包含 Fugu 和 Fugu Ultra）：

Standard：$20/月
Pro：$100/月（10 倍 Standard 额度）
Max：$200/月（20 倍 Standard 额度）
2026 年 7 月前订阅可免费获得第二个月

按量计费（Fugu Ultra，fugu-ultra-20260615）：

输入：$5/1M tokens（超过 272K 上下文时 $10）
输出：$30/1M tokens（超过 272K 上下文时 $45）
缓存输入：$0.50/1M tokens

作为对比，Anthropic Opus 4.8 的价格为 $15 输入 / $75 输出每百万 tokens。Fugu Ultra 的输入价格仅为 Opus 的三分之一，输出价格不到一半。但需要留意的是：Fugu 内部为完成任务会调用多个底层模型，单次复杂请求的实际总成本可能高于表面 token 价格。

五、AI 主权与”无出口管制风险”叙事

最让 Fugu 引发行业关注的，不是基准数字本身，而是其背后的地缘政治叙事。Sakana AI 在发布中反复强调一个口号：”frontier capability without the risk of export controls“——前沿能力，无出口管制风险。

近期 Anthropic Fable 5 和 Mythos 受到美国出口管制，依赖单一供应商的关键基础设施面临”一夜之间访问权限改变甚至断绝”的风险。Sakana 指出，将关键基础设施、金融或治理系统寄托于一家公司的 API，是”现实存在的弱点”。

Fugu 的架构天然具备韧性：底层 Agent 池完全可替换，某家供应商限制访问时，Fugu 可动态绕开干扰。虽然性能可能略有下降，但不会从前沿直接掉到不可用。这种”集体智能”作为对抗算力与模型集中化的对冲工具，对日本等偏好本土供应商的企业市场尤其有吸引力。

六、可用性与局限

Fugu 目前全球可用，但 欧盟/欧洲经济区暂不支持，GDPR 合规仍在进行中。用户可以在标准 Fugu 中选择退出特定底层模型，但 Fugu Ultra 的 Agent 池固定不可自定义；数据默认用于性能改进，可在控制台关闭。

至于具体使用了哪些底层模型，Sakana 表示路由信息属于专有技术，不便公开。这一点也是潜在用户的隐忧——黑盒路由意味着你无法完全审计为什么某个 worker 被选中，对金融、医疗等强合规场景存在挑战。

独立评测机构 Kingy AI 的结论较为客观：”Fugu Ultra 看起来是一个严肃的多智能体编排结果，而非普通的模型发布炒作周期。但证据尚未完全证明其与 Fable 5、Mythos 5 的全面平价……最稳妥的判定是：有前景、基准强劲、但仍未被广泛独立测试验证。”

七、行业意义：从”造神”到”建项目经理”

Fugu 的发布标志着 AI 行业出现了一条新路径：与其造一个全能的神，不如建一个懂得调兵遣将的指挥官。过去几年， Scaling Law 主导了几乎所有大公司的研发方向，但单体模型的边际收益正在递减，而多智能体协作的潜力才刚刚开始释放。

值得注意的是，已经有开发者火速开源了用 TypeScript 实现的简化版 Fugu runtime，复刻了 Conductor 的核心模式。这意味着”学习型编排”思路的可复制性已被验证，未来可能成为 LangGraph、CrewAI 等传统手写 pipeline 框架的下一代替代品。

对开发者而言，Fugu 适合的场景是：任务复杂、需要分工与验证、对单模型路由没有强审计要求的工作流；而对单次干净 prompt、强合规场景、超低延迟需求，传统单模型调用仍是更稳妥的选择。

在”越大越好”的竞赛之外，Sakana AI 用一个 7B 参数级别的协调模型，撬动了整个前沿模型池的集体智能。这或许才是 Fugu 最值得关注的地方——它不只是又一个大模型发布，而是对”AI 进化范式”本身的一次投票。

文章来源：本文由大国 AI 导航（daguoai.com）综合整理编写，参考资料包括 AGI Hunt、Sakana AI 官方公告、Startup Fortune、Digital Applied、Kingy AI、AI-bot.cn 等公开报道与官方文档。如需转载请注明出处。

Ai资讯 # AI 调用 # Fable 5 # Fugu # Fugu AI # Fugu Ultra # Fugu官网 # Sakana AI # 多智能体编排系统

文章版权归作者所有，未经允许请勿转载。

Anthropic发布Claude Code：AI Agent“下凡”，非技术用户迎来图形化生产力革命

Sakana AI 发布 Fugu Ultra：多智能体编排系统对标 Fable 5，重新定义 AI 调用范式

一、不是更大的模型，而是更聪明的”指挥官”

二、对标 Fable 5 与 Mythos Preview 的基准成绩

三、六个硬核实战案例

四、价格策略：显著低于 Opus 4.8

五、AI 主权与”无出口管制风险”叙事

六、可用性与局限

七、行业意义：从”造神”到”建项目经理”

Claude Sonnet 5下周上线？Fennec代号曝光，新一代Mythos内部训练完成，AI封锁反而加速迭代

GPT-5.6 Pro泄露炸场：150万上下文+Agent化升级，48分钟生成完整《模拟人生》，OpenAI下周四发布？

相关文章

Anthropic发布Claude Code：AI Agent“下凡”，非技术用户迎来图形化生产力革命

AI桌面端三国杀：Codex、Claude、Gemini 深度横评，谁才是2026最强生产力神器？

更高效、专业的股票分析工具｜硅基流动 × MarketAssistant

即梦4.0实测来了，AIP图又出王炸！！

暂无评论

最新文章

Sakana AI 发布 Fugu Ultra：多智能体编排系统对标 Fable 5，重新定义 AI 调用范式

一、不是更大的模型，而是更聪明的”指挥官”

二、对标 Fable 5 与 Mythos Preview 的基准成绩

三、六个硬核实战案例

四、价格策略：显著低于 Opus 4.8

五、AI 主权与”无出口管制风险”叙事

六、可用性与局限

七、行业意义：从”造神”到”建项目经理”

Claude Sonnet 5下周上线？Fennec代号曝光，新一代Mythos内部训练完成，AI封锁反而加速迭代

GPT-5.6 Pro泄露炸场：150万上下文+Agent化升级，48分钟生成完整《模拟人生》，OpenAI下周四发布？

相关文章

Anthropic发布Claude Code：AI Agent“下凡”，非技术用户迎来图形化生产力革命

AI桌面端三国杀：Codex、Claude、Gemini 深度横评，谁才是2026最强生产力神器？

更高效、专业的股票分析工具｜硅基流动 × MarketAssistant

即梦4.0实测来了，AIP图又出王炸！！

暂无评论

最新文章

标签云