DeepSeek V4发布!百万上下文开源登顶,硬刚GPT-5,腾讯阿里200亿抢筹底气何在?

Ai资讯2小时前发布 大国Ai
46 0 0

摘要: 就在今天,让全球开发者从春节苦盼至四月的DeepSeek V4终于揭开神秘面纱!全新双版本(Pro与Flash)强势登场,不仅以1M(100万)超长上下文重塑开源天花板,更在Agent能力与世界知识推理上直逼GPT-5.4等顶级闭源巨头。而在发布前夕,DeepSeek更打破了“绝不融资”的铁律,传获腾讯、阿里抢投,估值飙升超200亿美元。从底层架构的“三大神技”到对华为昇腾等国产芯片的深度适配,DeepSeek V4究竟凭什么让硅谷惊呼“可怕”?


资本狂热与模型革命:V4破茧而出

如果你最近关注AI圈,一定被两条消息刷屏了:一是腾讯与阿里巴巴正在激烈洽谈投资DeepSeek,将其目标估值从100亿美元硬生生拉抬至逾200亿美元;二是那个让全球苦等数月的下一代旗舰大模型——DeepSeek V4,终于正式发布!

这两件事绝非孤立。一直以来,DeepSeek靠着幻方量化“输血”,多次拒绝顶级风投的秋波。但面对大模型动辄千万美元的算力消耗,以及核心研究员被国内大厂高薪挖角(如V2架构核心贡献者罗福莉加盟小米、郭达雅跳槽字节等)的残酷现实,创始人梁文锋终于妥协,首次启动外部融资。而能让互联网巨头们心甘情愿掏出真金白银的底气,正是V4所展现出的统治级实力。

双剑合璧:开源阵营的新巅峰

这次V4系列不再只拼单一的极限参数,而是精准切分了性能与效率的需求,带来了两位“悍将”:

  • DeepSeek-V4-Pro:一头拥有1.6T总参数、49B激活参数的性能怪兽,专治各种疑难杂症;
  • DeepSeek-V4-Flash:284B总参数、13B激活参数的轻量级刺客,主打一个快准狠,极具性价比。

在最新披露的跑分中,V4-Pro堪称开源界的“灭霸”。在Agent能力上,它的编码体验已经超越了Claude Sonnet 4.5,直追Opus 4.6;在数理推理上,无论是HMMT高难度数学竞赛还是Codeforces代码榜单,V4-Pro都稳居开源第一,并具备了跟GPT-5.4、Gemini-3.1-Pro等世界最强闭源模型正面对刚的实战力。

更恐怖的是,V4把100万token的超级上下文直接做成了标配。这意味着什么?你可以一次性把整部百科全书、几万行的核心代码库扔给它,而不会出现“断片式遗忘”。

架构狂飙:如何把百万上下文打到“白菜价”?

如果说堆参数是财大气粗的蛮力,那极致的架构优化就是DeepSeek的独门绝学。V4之所以能把长上下文推理的计算量打到前代的27%,KV缓存缩减至惊人的10%,全靠底层的“三大神技”:

1. 混合注意力机制(CSA + HCA)
这就好比给数据读取修了“双车道高速”。此前DeepSeek联合北大、清华发布的DualPath推理框架论文就已经在铺垫:传统架构在处理超长上下文时,网卡带宽容易被预处理引擎占满,导致解码引擎闲置卡脖子。V4干脆在Token维度做极致压缩:CSA(压缩稀疏注意力)负责精细化检索,HCA(重压缩注意力)负责全局感知,再叠加128 token的滑动窗口捕捉局部细节。三种机制打组合拳,彻底终结了算力空转。

2. 流形约束超连接
训练深层大模型最怕什么?信号传播发散,数值“爆炸”。今年初曝光的MODEL1新架构代码中,就有大量关于mHC的线索。V4把残差映射矩阵死死约束在双随机矩阵流形上,仅仅付出6.7%的额外时间代价,就换来了深层网络中信号传播的绝对稳定。

3. Muon优化器与工程狠活
引入Newton-Schulz正交化的Muon优化器只是基础,V4在工程上更是用足了“土办法”:遇到loss spike就自动触发的Anticipatory Routing,以及简单粗暴限制数值范围的SwiGLU Clamping。这种对工程极限的死磕,恰恰是DeepSeek一贯的作风。

国产芯突围:黄仁勋口中的“可怕结果”

除了在软件架构上狂奔,DeepSeek V4在硬件生态上的动作同样具有战略意义。早在V4发布前,就有消息称DeepSeek已将V4的提前访问权提供给华为等国内厂商,以优化处理器软件。最新信息更是实锤,V4已完成了与华为昇腾、寒武纪等国产头部AI芯片的深度优化适配。

这也难怪英伟达CEO黄仁勋会公开表态:中国拥有庞大计算资源和顶尖AI人才,算法创新完全可以弥补硬件差距。如果DeepSeek V4与华为昇腾芯片深度适配,将实质性削弱美国在AI技术生态的壁垒,这对美国来说将是“可怕的结果”。

当国产最强算法遇上国产最强算力,曾经卡脖子的坚冰正在破裂。

开发者狂欢:即刻拥抱1M上下文

对于苦等升级的开发者来说,最好消息是V4的API已经同步上线。只需要在接口中把model_name改为deepseek-v4-prodeepseek-v4-flash,就能立刻接入百万级上下文的新世代。需要留意的是,原有的deepseek-chatdeepseek-reasoner将在2026年7月24日正式停用,还在使用旧版API的朋友记得尽早迁移。

从R1的一战封神,到V4的效率革命与开源普惠,DeepSeek再次证明了一件事:在AGI的征途上,闭源的垄断绝非不可打破。只要你愿意死磕底层创新,平民化的百万上下文时代,一样可以来得轰轰烈烈。


文章来源:

  • 新智元《DeepSeek V4震撼发布!实现全球开源领先》
  • 证券时报《刚刚,直线拉升!DeepSeek,突传重磅!》[webpage 1]
  • 中国基金报《DeepSeek,首次启动融资!》[webpage 2]
  • 证券时报《DeepSeek又一论文上新!新模型V4更近了?》[webpage 3]
  • 环球网科技《DeepSeek AI新模型曝光 搭载 MODEL1 全新架构》[webpage 4]
© 版权声明

相关文章

暂无评论

none
暂无评论...