在与 Mozilla 合作的 Firefox 147 漏洞利用开发评估中(所有漏洞已在 Firefox 148 修复):
Sonnet 5:完全成功率 0.0%,部分成功率 13.2%
Sonnet 4.6:0.0% / 8.8%
Opus 4.8:68.8% 部分成功
Mythos 5:90.0%
Anthropic 表示并未刻意针对网络安全任务训练 Sonnet 5,其部分成功率的提升主要源于通用智能改进。鉴于其整体网络安全风险较低,Anthropic 默认启用了与 Opus 4.7/4.8 相同的网络安全护栏(严格程度低于 Fable 5)。
3. 网络安全验证计划
Sonnet 5 已纳入 Anthropic 的”网络安全验证计划”,现已在 Claude 原生平台、AWS 上的 Claude 平台、Microsoft Foundry 中的 Claude(托管于 Azure 和 Anthropic)开放,Google Vertex 上的 Claude 即将支持。已加入该计划的组织无需重新申请。如果网络安全工作需要更少的安全护栏限制,Anthropic 推荐使用 Claude Opus 4.8。