DeepSeek-V4开源首发:1M长文本破局,华为昇腾加持重塑AI格局

Ai资讯3小时前发布 大国Ai
17 0 0

摘要: 4月24日,业界翘首以盼的DeepSeek-V4预览版重磅上线并同步开源。新模型以“1M(百万)上下文+双版本(Pro/Flash)+全开源”的组合拳出击,不仅在Agent能力、世界知识与推理性能上比肩国际顶尖闭源模型,更在架构上实现了革命性突破——首创混合注意力机制与流形约束残差连接,大幅降低算力消耗。同时,DeepSeek-V4开始深度适配华为昇腾国产算力,标志着国产大模型在“软硬协同”自主可控道路上迈出关键一步。延续一贯的“价格屠夫”风格,V4 API定价极具冲击力,再次拉高了行业普惠天花板。


盼星星盼月亮,在距离上一个大版本更新15个月后,DeepSeek-V4终于掀开了红盖头。选在OpenAI发布GPT-5.5仅数小时后官宣,火药味与硬实力可见一斑。这一次,DeepSeek带来的不仅仅是参数的堆砌,更是对长文本效率瓶颈的一次降维打击,以及对国产算力生态的一次深度整合。

DeepSeek-V4开源首发:1M长文本破局,华为昇腾加持重塑AI格局

一、 双版本战略:Pro旗舰与Flash轻骑,1M上下文成标配

DeepSeek-V4这次采取了类似Claude(Sonnet/Opus)与GPT(Mini/Pro)的分档思路,推出了Pro与Flash两个版本,且全线标配1M(百万)超长上下文

  • DeepSeek-V4-Pro:总参数1.6万亿,激活参数49B,预训练数据33T。这是妥妥的性能旗舰,专为硬核任务而生。在Agentic Coding评测中,它已达当前开源模型最佳水平,内部反馈体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式。
  • DeepSeek-V4-Flash:总参数2840亿,激活参数13B,预训练数据32T。主打一个“快准狠”,虽然世界知识储备略逊于Pro,但推理能力极为接近,且在简单Agent任务上与Pro旗鼓相当。

百万字上下文意味着什么?大约相当于一次性吞下《三体》三部曲还能娓娓道来。从今往后,128K将成为历史,1M将成为DeepSeek官方服务的底线配置。这背后,是V4在注意力机制上的颠覆性创新——在token维度进行压缩,结合DSA稀疏注意力。得益于这套机制,在1M上下文场景下,V4-Pro仅需前代V3.2的27%的单token推理FLOPs和10%的KV缓存;Flash版更是极致,低至10%的FLOPs和7%的KV缓存。

二、 架构炸裂:混合注意力与Muon优化器,重定义参数效率

DeepSeek-V4的58页技术报告里,藏着不少狠活。保留DeepSeekMoE框架与多令牌预测(MTP)策略的同时,V4完成了“架构三件套”升级:

  1. Hybrid Attention(混合注意力):这是V4的灵魂。它将**CSA(Compressed Sparse Attention)HCA(Heavily Compressed Attention)**交错使用。CSA先将KV压缩再跑稀疏注意力,管长距离;HCA则进行更激进的压缩,保持稠密注意力,管超长压缩。两者配合,彻底击穿了长上下文的效率壁垒。
  2. mHC(Manifold-Constrained Hyper-Connections):用流形约束强化残差连接,把残差映射矩阵约束在双随机矩阵流形上,保证深层堆叠时信号传播不跑飞,这是DeepSeek1月论文的成果,首次在旗舰模型落地。
  3. Muon优化器:告别单纯的AdamW,DeepSeek引入了基于Newton-Schulz迭代的Muon优化器,收敛更快、稳定性更好。

在后训练阶段,V4把V3.2的mixed RL阶段整个换成了On-Policy Distillation(OPD),先培养领域专家,再让学生模型在自己生成的轨迹上学习多老师的输出分布,这使得模型在代码、数学、指令跟随等不同领域能力更加均衡。此外,V4支持Non-think、Think High、Think Max三种思考强度,用户可根据任务复杂度灵活切换,在速度与深度间找到最优解。

三、 战绩彪炳:开源第一梯队,直逼顶级闭源

从成绩单来看,V4-Pro-Max已经站在了开源模型的金字塔尖,甚至在多个维度硬刚闭源巨头:

  • 推理与代码:在数学、STEM、竞赛代码测评中,Pro超越所有已公开评测的开源模型,比肩世界顶级闭源模型。LiveCodeBench Pass@1拿到93.5,Codeforces Rating高达3206,甚至在Codeforces上略胜GPT-5.4-xHigh一筹。真实研发任务通过率达67%,远超Sonnet 4.5的47%。
  • 世界知识:Pro在世界知识测评中大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1。SimpleQA-Verified拿到57.9,高于Opus-4.6-Max和GPT-5.4-xHigh。
  • 长文本:在MRCR 1M评测中拿到83.5,超过Gemini-3.1-Pro;在128K范围内的检索表现极稳,仅在512K+极限场景下才会出现衰减。
  • 中文写作与白领任务:在功能性写作上对Gemini-3.1-Pro胜率62.7%;在30个中文高级专业任务中,对Opus-4.6-Max总体胜率达53%。

当然,模型并非完美。在PPT视觉呈现等格式美感任务,以及最复杂的思考模式(如Opus 4.6 Thinking)对抗中,V4仍有追赶空间。

四、 拥抱国产算力:华为昇腾加持,打通自主可控闭环

如果说模型能力的提升是“矛”,那么底层算力的自主可控就是“盾”。DeepSeek-V4发布的一个重磅信号是:开始明显转向适配国产算力

华为宣布昇腾超节点全系列产品全面支持DeepSeek V4系列模型,通过芯模技术协同,使昇腾950与昇腾A3超节点系列完成适配。此前有消息称,DeepSeek下一代旗舰模型将完全运行于华为昇腾950PR芯片,技术架构从CUDA全面转向CANN框架。这意味着DeepSeek打破了“大模型必依赖英伟达”的产业定式,成为中国AI产业自主可控的关键里程碑。

受此利好刺激,资本市场迅速反应。DeepSeek概念股异动拉升,科创50指数一度飙涨超1.5%,海光信息、龙芯中科等国产算力标的纷纷大涨。同时,三大运营商及云厂商也闻风而动,中国联通(联通云x联通元景)、PPIO等均在第一时间宣布上线DeepSeek-V4,提供开箱即用的CodingPlan及云桌面服务,零门槛解锁顶尖大模型能力。

五、 价格屠夫再现:普惠到底,API无缝迁移

在这个算力即金钱的时代,DeepSeek依然保持了令人咋舌的性价比:

  • V4-Flash:缓存命中输入0.2元/百万Token,未命中1元,输出2元;
  • V4-Pro:缓存命中1元/百万Token,未命中12元,输出24元。

官方特别提示,受限于当前高端算力,Pro版服务吞吐有限,但预计下半年昇腾950超节点批量上市后,Pro版价格有望大幅下调

在API接入上,V4兼容OpenAI与Anthropic两大标准接口,开发者仅需将model_name修改为deepseek-v4-prodeepseek-v4-flash即可。需要注意的是,原有的deepseek-chatdeepseek-reasoner接口将在3个月后(2026年7月24日)正式停用,目前自动映射至Flash版本以降低迁移成本。

结语

DeepSeek-V4不仅仅是一次简单的版本迭代,它是长文本效率革命、算法架构创新与国产算力崛起的三重奏。尽管在多模态能力上尚未切入(有猜测称因算力与资金掣肘),且融资传闻不断(估值传闻已超400亿美元),但DeepSeek正用最硬核的技术和最普惠的价格,努力向着AGI的长期主义目标不断靠近。


文章来源:

  • [1] 一次读完《三体》?DeepSeek-V4预览版上线,标配百万上下文能力
  • [2] DeepSeek-V4来了!华为昇腾加持,还是那个“价格屠夫”
  • [3] 联通云 x 联通元景上线DeepSeek V4!中国联通算、模、用三位一体,全面升级焕新!
  • [4] PPIO首批上线DeepSeek-V4预览版,1M超长上下文能力开箱即用
  • [5] 7分钟,直线涨停!DeepSeek,重磅来袭!
  • [6] DeepSeek V4正式发布 昇腾超节点系列产品全面支持
© 版权声明

相关文章

暂无评论

none
暂无评论...