摘要:2026 年 6 月 22 日,日本 AI 公司 Sakana AI 正式发布多智能体编排系统 Fugu 及 Fugu Ultra。与传统”做大模型”的路径不同,Fugu 是一个学会了调度其他模型的 LLM,对外封装为单一 OpenAI 兼容 API。官方基准测试显示,Fugu Ultra 在 SWE-Bench Pro、GPQA-D、LiveCodeBench 等硬核评测中达到或超过 Anthropic Fable 5、Mythos Preview 同级水平,输入价格仅为 Opus 4.8 的三分之一,并具备”无出口管制风险”的地缘韧性。这是 AI 行业从”单体智能”走向”集体智能”的标志性产品。
过去几年,AI 行业的主流叙事是 Scaling Law——模型越大、数据越多、算力越猛,性能就越强。但 Sakana AI 走了一条截然不同的路。Fugu 本身是一个语言模型,但它并不直接回答用户问题,而是”决定让谁来回答”。
它背后维护着一个动态的 Agent 池,包含各类专长不同的前沿模型。当任务进入时,Fugu 会自主决定:调用哪个模型、分几步完成、是否需要验证结果、甚至是否递归调用自身。整套协调策略没有任何手工设计规则,完全通过强化学习和进化算法”学出来”。
这套设计基于 Sakana AI 在 ICLR 2026 上的两篇论文:
对用户而言,整个过程是无感的——你调用一个 API,拿到一个结果,中间发生了什么完全透明。Fugu 本质上是一个”学会了当项目经理的 LLM”,它动态从模型池中组装团队,并以人类想不到的高效协作模式完成任务。
Sakana AI 在公告中明确宣称,Fugu Ultra 与 Anthropic 的 Fable 5 和 Mythos Preview”站在同一水平线上”。这一点值得注意:Fable 5 和 Mythos Preview 受美国出口管制限制,并不在 Fugu 的 Agent 池中,Fugu 是在不调用它们的情况下取得这一成绩的。
核心基准数据如下:
其中 GPQA-D 95.5 分是目前公开可用模型中的最高分;HLE(Humanity’s Last Exam)50.0 分仅比 Fable 5 少 3.3 分。需要客观指出的是,这些数据均为厂商自报,独立第三方评测尚未大规模落地。
除了基准测试,Sakana AI 还展示了六个真实场景案例:
这些案例的共同点是——任务”脏、乱、长跑”,超出单模型调用范畴。一位开发者反馈:”如果是一个干净的单次 prompt,你大概还是会直接用 Fable 5 或 Mythos。但任务越复杂、越混乱——涉及分工、验证、综合、代码审查、研究循环、安全评估——这种编排系统就越有意义。”
Fugu 兼容 OpenAI API 格式,无需独家 SDK,直接修改 endpoint 即可集成到现有工作流。价格方面提供两种模式:
订阅制(同时包含 Fugu 和 Fugu Ultra):
按量计费(Fugu Ultra,fugu-ultra-20260615):
作为对比,Anthropic Opus 4.8 的价格为 $15 输入 / $75 输出每百万 tokens。Fugu Ultra 的输入价格仅为 Opus 的三分之一,输出价格不到一半。但需要留意的是:Fugu 内部为完成任务会调用多个底层模型,单次复杂请求的实际总成本可能高于表面 token 价格。
最让 Fugu 引发行业关注的,不是基准数字本身,而是其背后的地缘政治叙事。Sakana AI 在发布中反复强调一个口号:”frontier capability without the risk of export controls“——前沿能力,无出口管制风险。
近期 Anthropic Fable 5 和 Mythos 受到美国出口管制,依赖单一供应商的关键基础设施面临”一夜之间访问权限改变甚至断绝”的风险。Sakana 指出,将关键基础设施、金融或治理系统寄托于一家公司的 API,是”现实存在的弱点”。
Fugu 的架构天然具备韧性:底层 Agent 池完全可替换,某家供应商限制访问时,Fugu 可动态绕开干扰。虽然性能可能略有下降,但不会从前沿直接掉到不可用。这种”集体智能”作为对抗算力与模型集中化的对冲工具,对日本等偏好本土供应商的企业市场尤其有吸引力。
Fugu 目前全球可用,但 欧盟/欧洲经济区暂不支持,GDPR 合规仍在进行中。用户可以在标准 Fugu 中选择退出特定底层模型,但 Fugu Ultra 的 Agent 池固定不可自定义;数据默认用于性能改进,可在控制台关闭。
至于具体使用了哪些底层模型,Sakana 表示路由信息属于专有技术,不便公开。这一点也是潜在用户的隐忧——黑盒路由意味着你无法完全审计为什么某个 worker 被选中,对金融、医疗等强合规场景存在挑战。
独立评测机构 Kingy AI 的结论较为客观:”Fugu Ultra 看起来是一个严肃的多智能体编排结果,而非普通的模型发布炒作周期。但证据尚未完全证明其与 Fable 5、Mythos 5 的全面平价……最稳妥的判定是:有前景、基准强劲、但仍未被广泛独立测试验证。”
Fugu 的发布标志着 AI 行业出现了一条新路径:与其造一个全能的神,不如建一个懂得调兵遣将的指挥官。过去几年, Scaling Law 主导了几乎所有大公司的研发方向,但单体模型的边际收益正在递减,而多智能体协作的潜力才刚刚开始释放。
值得注意的是,已经有开发者火速开源了用 TypeScript 实现的简化版 Fugu runtime,复刻了 Conductor 的核心模式。这意味着”学习型编排”思路的可复制性已被验证,未来可能成为 LangGraph、CrewAI 等传统手写 pipeline 框架的下一代替代品。
对开发者而言,Fugu 适合的场景是:任务复杂、需要分工与验证、对单模型路由没有强审计要求的工作流;而对单次干净 prompt、强合规场景、超低延迟需求,传统单模型调用仍是更稳妥的选择。
在”越大越好”的竞赛之外,Sakana AI 用一个 7B 参数级别的协调模型,撬动了整个前沿模型池的集体智能。这或许才是 Fugu 最值得关注的地方——它不只是又一个大模型发布,而是对”AI 进化范式”本身的一次投票。
文章来源:本文由大国 AI 导航(daguoai.com)综合整理编写,参考资料包括 AGI Hunt、Sakana AI 官方公告、Startup Fortune、Digital Applied、Kingy AI、AI-bot.cn 等公开报道与官方文档。如需转载请注明出处。