Sakana AI 发布 Fugu Ultra:多智能体编排系统对标 Fable 5,重新定义 AI 调用范式

Ai资讯2小时前发布 大国Ai
11 0 0

摘要:2026 年 6 月 22 日,日本 AI 公司 Sakana AI 正式发布多智能体编排系统 FuguFugu Ultra。与传统”做大模型”的路径不同,Fugu 是一个学会了调度其他模型的 LLM,对外封装为单一 OpenAI 兼容 API。官方基准测试显示,Fugu Ultra 在 SWE-Bench Pro、GPQA-D、LiveCodeBench 等硬核评测中达到或超过 Anthropic Fable 5、Mythos Preview 同级水平,输入价格仅为 Opus 4.8 的三分之一,并具备”无出口管制风险”的地缘韧性。这是 AI 行业从”单体智能”走向”集体智能”的标志性产品。

一、不是更大的模型,而是更聪明的”指挥官”

过去几年,AI 行业的主流叙事是 Scaling Law——模型越大、数据越多、算力越猛,性能就越强。但 Sakana AI 走了一条截然不同的路。Fugu 本身是一个语言模型,但它并不直接回答用户问题,而是”决定让谁来回答”。

Sakana AI 发布 Fugu Ultra:多智能体编排系统对标 Fable 5,重新定义 AI 调用范式

它背后维护着一个动态的 Agent 池,包含各类专长不同的前沿模型。当任务进入时,Fugu 会自主决定:调用哪个模型、分几步完成、是否需要验证结果、甚至是否递归调用自身。整套协调策略没有任何手工设计规则,完全通过强化学习和进化算法”学出来”。

这套设计基于 Sakana AI 在 ICLR 2026 上的两篇论文:

  • TRINITY:提出轻量级”进化协调器”,自适应地为不同任务分配 Thinker(思考者)、Worker(执行者)、Verifier(验证者)三种角色,协调器通过进化算法优化。
  • Conductor:通过强化学习训练出”指挥家”,让它自主发现最优的 Agent 通信模式和协作策略。论文核心发现是:RL 训练出来的协调策略往往”非直觉但高效”,人类设计师难以想到那种分工方式。

对用户而言,整个过程是无感的——你调用一个 API,拿到一个结果,中间发生了什么完全透明。Fugu 本质上是一个”学会了当项目经理的 LLM”,它动态从模型池中组装团队,并以人类想不到的高效协作模式完成任务。

二、对标 Fable 5 与 Mythos Preview 的基准成绩

Sakana AI 在公告中明确宣称,Fugu Ultra 与 Anthropic 的 Fable 5 和 Mythos Preview”站在同一水平线上”。这一点值得注意:Fable 5 和 Mythos Preview 受美国出口管制限制,并不在 Fugu 的 Agent 池中,Fugu 是在不调用它们的情况下取得这一成绩的。

核心基准数据如下:

基准测试 Fugu Ultra Opus 4.8 Gemini 3.1 Pro GPT-5.5
SWE-Bench Pro 73.7 69.2 54.2 58.6
LiveCodeBench 93.2 87.8 88.5 85.3
GPQA-D 95.5 92.0 94.3 93.6
HLE 50.0 49.8 44.4 41.4
TerminalBench 2.1 82.1

其中 GPQA-D 95.5 分是目前公开可用模型中的最高分;HLE(Humanity’s Last Exam)50.0 分仅比 Fable 5 少 3.3 分。需要客观指出的是,这些数据均为厂商自报,独立第三方评测尚未大规模落地。

三、六个硬核实战案例

除了基准测试,Sakana AI 还展示了六个真实场景案例:

  1. AutoResearch(自动化 ML 研究):Fugu Ultra 自主运行 123 次实验,取得 BPB 得分 0.9774 ± 0.0019,超过所有前沿竞争者。
  2. 日文古籍识别:在日本历史文献阅读顺序恢复任务上达到 NED 0.80,竞品只有 0.24 或直接失败(这点与 Sakana 的日本基因相关)。
  3. 魔方求解器:成功解开全部 300 个测试魔方,竞品代码无法运行;300 个测试中步数从未输过(7 胜 293 平 0 负)。
  4. CAD 机械设计:成功设计出可工作的虹膜机构,其他模型产出存在间隙或不完整。
  5. 国际象棋(盲棋):连续四局对弈保持完美准确率。
  6. 金融交易:50 周回测中实现 +19.43% 平均回报,其他前沿模型均低于 15%。

这些案例的共同点是——任务”脏、乱、长跑”,超出单模型调用范畴。一位开发者反馈:”如果是一个干净的单次 prompt,你大概还是会直接用 Fable 5 或 Mythos。但任务越复杂、越混乱——涉及分工、验证、综合、代码审查、研究循环、安全评估——这种编排系统就越有意义。”

四、价格策略:显著低于 Opus 4.8

Fugu 兼容 OpenAI API 格式,无需独家 SDK,直接修改 endpoint 即可集成到现有工作流。价格方面提供两种模式:

订阅制(同时包含 Fugu 和 Fugu Ultra):

  • Standard:$20/月
  • Pro:$100/月(10 倍 Standard 额度)
  • Max:$200/月(20 倍 Standard 额度)
  • 2026 年 7 月前订阅可免费获得第二个月

按量计费(Fugu Ultra,fugu-ultra-20260615):

  • 输入:$5/1M tokens(超过 272K 上下文时 $10)
  • 输出:$30/1M tokens(超过 272K 上下文时 $45)
  • 缓存输入:$0.50/1M tokens

作为对比,Anthropic Opus 4.8 的价格为 $15 输入 / $75 输出每百万 tokens。Fugu Ultra 的输入价格仅为 Opus 的三分之一,输出价格不到一半。但需要留意的是:Fugu 内部为完成任务会调用多个底层模型,单次复杂请求的实际总成本可能高于表面 token 价格。

五、AI 主权与”无出口管制风险”叙事

最让 Fugu 引发行业关注的,不是基准数字本身,而是其背后的地缘政治叙事。Sakana AI 在发布中反复强调一个口号:”frontier capability without the risk of export controls“——前沿能力,无出口管制风险。

近期 Anthropic Fable 5 和 Mythos 受到美国出口管制,依赖单一供应商的关键基础设施面临”一夜之间访问权限改变甚至断绝”的风险。Sakana 指出,将关键基础设施、金融或治理系统寄托于一家公司的 API,是”现实存在的弱点”。

Fugu 的架构天然具备韧性:底层 Agent 池完全可替换,某家供应商限制访问时,Fugu 可动态绕开干扰。虽然性能可能略有下降,但不会从前沿直接掉到不可用。这种”集体智能”作为对抗算力与模型集中化的对冲工具,对日本等偏好本土供应商的企业市场尤其有吸引力。

六、可用性与局限

Fugu 目前全球可用,但 欧盟/欧洲经济区暂不支持,GDPR 合规仍在进行中。用户可以在标准 Fugu 中选择退出特定底层模型,但 Fugu Ultra 的 Agent 池固定不可自定义;数据默认用于性能改进,可在控制台关闭。

至于具体使用了哪些底层模型,Sakana 表示路由信息属于专有技术,不便公开。这一点也是潜在用户的隐忧——黑盒路由意味着你无法完全审计为什么某个 worker 被选中,对金融、医疗等强合规场景存在挑战。

独立评测机构 Kingy AI 的结论较为客观:”Fugu Ultra 看起来是一个严肃的多智能体编排结果,而非普通的模型发布炒作周期。但证据尚未完全证明其与 Fable 5、Mythos 5 的全面平价……最稳妥的判定是:有前景、基准强劲、但仍未被广泛独立测试验证。”

七、行业意义:从”造神”到”建项目经理”

Fugu 的发布标志着 AI 行业出现了一条新路径:与其造一个全能的神,不如建一个懂得调兵遣将的指挥官。过去几年, Scaling Law 主导了几乎所有大公司的研发方向,但单体模型的边际收益正在递减,而多智能体协作的潜力才刚刚开始释放。

值得注意的是,已经有开发者火速开源了用 TypeScript 实现的简化版 Fugu runtime,复刻了 Conductor 的核心模式。这意味着”学习型编排”思路的可复制性已被验证,未来可能成为 LangGraph、CrewAI 等传统手写 pipeline 框架的下一代替代品。

对开发者而言,Fugu 适合的场景是:任务复杂、需要分工与验证、对单模型路由没有强审计要求的工作流;而对单次干净 prompt、强合规场景、超低延迟需求,传统单模型调用仍是更稳妥的选择。

在”越大越好”的竞赛之外,Sakana AI 用一个 7B 参数级别的协调模型,撬动了整个前沿模型池的集体智能。这或许才是 Fugu 最值得关注的地方——它不只是又一个大模型发布,而是对”AI 进化范式”本身的一次投票。


文章来源:本文由大国 AI 导航(daguoai.com)综合整理编写,参考资料包括 AGI Hunt、Sakana AI 官方公告、Startup Fortune、Digital Applied、Kingy AI、AI-bot.cn 等公开报道与官方文档。如需转载请注明出处。

© 版权声明

相关文章

暂无评论

none
暂无评论...