当前编程领域的性能标杆是Anthropic于2025年11月发布的Claude Opus 4.5,该模型在SWE-bench测试中表现优异,被Anthropic称为“全球在编码、智能代理和计算机应用方面表现最佳的模型”。DeepSeek-V4要想在编程领域取得领先地位,不仅需要展示强大的代码生成能力,还需要在调试和调用外部工具的Agent能力上有所突破。
此前,DeepSeek在2025年9月发布的V3.1-Terminus模型已经在部分基准测试中表现优于Gemini 2.5 Pro,特别是在Humanity’s Last Exam、LiveCodeBench、SimpleQA、SWE-bench Verified等评测中取得了显著进步。这为V4的发布奠定了技术基础。