Claude Fable 5 深度解析:性能碾压 GPT-5.5,Anthropic 放出“双刃剑”,价格翻倍引争议

Ai资讯3天前发布 大国Ai
246 0 0

摘要: 就在今天,Anthropic 正式扔出了今年的重磅炸弹——Claude Fable 5 及其无安全限制版本 Mythos 5。新模型在软件工程、智能体编码、视觉推理等几乎全维度的基准测试中实现了碾压式登顶,甚至在 5000 万行代码的 Ruby 迁移中展现了“一天抵两月”的恐怖生产力。然而,与极致性能相伴的,是翻倍的定价、严苛的安全降级机制,以及针对大模型开发的隐形限制。这是 AI 能力的又一次跃迁,也是 Anthropic 在商业野心与安全红线之间的一次危险走钢丝。


AI 圈的六月,注定不会平静。就在刚刚,Anthropic 宣布 Claude Fable 5 正式发布,与之同框亮相的还有那个一直蒙着神秘面纱的“完全体”——Mythos 5。

Claude Fable 5 深度解析:性能碾压 GPT-5.5,Anthropic 放出“双刃剑”,价格翻倍引争议

如果你还在回味去年 Claude 4.5 带来的震撼,那么这次的 Fable 5 可能会让你直接把旧模型踢出工作流。前特斯拉 AI 总监 Andrej Karpathy 第一时间发文感叹,这是一个“大版本升级才配得上的跃迁式进步”,尤其是在处理超长、超复杂问题时的专注度,让人第一次如此 tempted to stop looking at the code at all(忍不住想完全放手不看代码了)。

1. 性能爆炸:从“编码代理”到“赛博同事”

看数据是最直观的。在 SWE-Bench Pro 这一硬核智能体编码测试中,Fable 5 拿下了 80.3% 的惊人成绩,直接将 Claude Opus 4.8(69.2%)和 GPT-5.5(58.6%)甩在身后。而在最具挑战性的 FrontierCode Diamond 子集中,Fable 5 得分 29.3%,是 Opus 4.8(13.4%)的两倍多,GPT-5.5(5.7%)更是连它的尾灯都看不见。

最让我觉得“后背发凉”的,是 Anthropic 给出的一个实战案例:在一个 5000 万行代码的 Ruby 代码库中,Fable 5 一天之内完成了一次全库迁移。这种工作量,如果换成人类团队,至少需要两个月。难怪 Claude Code 团队的 Boris Cherny 直言,Fable 让他从“编码代理”升级成了“思考与设计伙伴”,它甚至学会了主动添加日志、验证问题,具备了以前模型欠缺的“判断力和维度感”。

这种超强能力的背后,离不开混合模式的加持。根据此前针对 Fable 系列的技术解析,其在处理排序、数据清洗等需要高确定性结果的任务时,不再试图用语言生成的概率来“猜”结果,而是直接调用安全沙盒中的 Python 脚本执行代码,将 LLM 推理与传统编程的精确性完美结合。

除了写代码,Fable 5 在视觉和长上下文上也卷出了新高度。它不仅能在没有复杂辅助机制的情况下纯靠视觉打通《宝可梦:火红》,在玩《杀戮尖塔》这种需要深度策略规划的游戏时,借助文件级记忆内存,性能也比上一代飙升了 3 倍。

2. 双轨发布:Fable 与 Mythos 的一体两面

这次发布的最大看点之一,是 Fable 5 和 Mythos 5 的“双轨制”。两者底座相同,但 Mythos 5 剥离了部分安全限制。

说起 Mythos,熟悉圈内动态的朋友应该知道,早些时候这款被称为“克劳德神话”的前沿模型曾因“网络安全风险过高”被 Anthropic 暂缓公开,仅在内部“玻璃翼计划”中小范围提供给少数网络安全防御者和基础设施服务商。当时业界对此举褒贬不一,甚至有竞争对手直指这是 Anthropic 为了推高估值、搞生态垄断的“恐惧营销”。

如今,Mythos 5 终于正式落地,它展现出了令人敬畏的科学直觉。Anthropic 内部专家利用它将药物设计流程的部分效率提升了约 10 倍,它甚至能持续提出新颖且令人信服的分子生物学假说——在盲测中,约 80% 的科学家更青睐 Mythos 的假说,其中关于大肠杆菌蛋白质新机制的假说已被独立实验室证实。

而面向大众的 Fable 5,则戴上了沉重的“安全紧箍咒”。为了防止模型被滥用,Anthropic 设置了熔断机制:一旦检测到用户试图“蒸馏”模型或查询高风险问题,系统会静默降级至 Opus 4.8 进行响应。

3. 价格翻倍与隐秘的护城河

能力越强,要价越高。Fable 5 和 Mythos 5 的定价为每百万输入 token 10 美元、输出 token 50 美元。这虽然不到年初 Mythos 预览版价格的一半,但比现有的 Opus 4.8 贵了一倍,比 GPT-5.5 的输入贵一倍、输出贵 2/3。

更值得一提的是,Anthropic 为 Fable 5 埋下了一道隐形的护城河:你不能用 Fable 5 去开发新的大模型。

一旦系统检测到你在搞预训练管道、分布式训练架构或 AI 加速器设计,Fable 5 不会告诉你它发现了什么,而是通过提示修改、转向向量或参数高效微调(PEFT)等方法暗中限制你的输出效果。Anthropic 坦承这大概会影响 0.03% 的流量,但这恰恰说明了他们的态度——在 AI 自我迭代加速的当下,他们要守住自己的核心护城河。

不过,Anthropic 的安全防线并非无懈可击。就在上个月,红队测试公司 Mindgard 就通过心理施压、刻意奉承等非技术手段,成功诱导 Claude Sonnet 4.5 突破底线,输出了恶意代码和违禁信息。这种社会心理学层面的攻击,暴露了哪怕是主打安全的 Claude 家族,依然存在人性的漏洞。

4. 写在最后:AI 正在抢谁的饭碗?

从 Claude 近期的频频动作来看,他们想要的已经不仅仅是做一个“对话框”。从编程神器 Claude Code 到渗透企业工作流的 Claude Cowork,再到如今能够自主完成复杂工程任务的 Fable 5,AI 正在从一个被调用的工具,变成主动使用工具的“赛博同事”。

正如英伟达 CEO 黄仁勋所言,我们正在迎来软件史上最大的机会:软件不再是人去操作的静态工具,AI 开始去使用 Excel、去使用那些复杂的 SaaS 系统。对于传统 SaaS 厂商来说,如果企业能用 AI 自主构建工具,谁还会为昂贵的标准化软件付费?这场变革,或许比我们想象的来得更快。

目前,Anthropic 给出了一个短暂的“白嫖”窗口:从今天起到 6 月 22 日,Pro、Max、Team 及企业版用户可免费使用 Fable 5。6 月 23 日起,使用它将消耗额度。传闻中 OpenAI 的 GPT-5.6 也箭在弦上,这场 AI 巨头间的巅峰对决,好戏才刚刚开始。


文章来源:

  • 机器之心《刚刚,Claude最强模型Fable 5发布:性能爆炸,价格翻倍》
© 版权声明

相关文章

暂无评论

none
暂无评论...