摘要:北京时间2026年1月1日,DeepSeek团队在arXiv预印本平台正式发布题为《mHC: Manifold-Constrained Hyper-Connections》的重磅研究论文。该论文由创始人梁文锋参与撰写,提出了一种名为“流形约束超连接”(mHC)的创新框架,旨在解决大规模AI模型训练中的稳定性瓶颈问题,仅以6.7%的额外训练开销即可显著提升模型性能与可扩展性。此举标志着DeepSeek在业界普遍聚焦商业化应用之际,持续深耕基础模型理论研究的战略定力。
当前主流大模型普遍采用的残差连接架构,自2015年由何凯明团队提出以来,已成为AI模型的“标配”基础组件。这种架构如同一条“单车道高速公路”,允许数据信号跳过某些网络层直接传递,有效解决了深度神经网络训练难题。然而,随着模型参数规模突破千亿级别,这条“单车道”日益拥堵,难以满足高性能计算需求。
2024年,字节跳动团队提出的超连接(HC)范式将“单车道”扩展为“多车道”,通过拓宽残差流宽度和多样化连接模式显著提升了模型表达能力。但这一改进也带来了严峻挑战:无约束的连接模式破坏了残差连接固有的恒等映射特性,导致训练过程中信号严重失真、梯度爆炸风险加剧。实验数据显示,在27B参数模型中,HC架构可能导致信号放大倍数逼近3000倍,引发训练不稳定甚至崩溃。
DeepSeek团队提出的mHC框架,本质上是为HC的“多车道”架构安装了一套“智能交通调度系统”。该框架通过数学上的流形约束,将HC中的残差映射矩阵投影到双随机矩阵构成的特有空间(Birkhoff多面体),在保留拓扑表达力的同时,精准恢复了恒等映射的关键性质。
这一技术突破带来三大核心优势:首先,所有行列和保持为1,实现能量守恒,从根本上避免了信号放大或衰减;其次,在矩阵乘法运算下保持闭合特性,确保跨层传播的稳定性;第三,具备清晰的几何可解释性,作为所有排列矩阵的凸组合,有利于特征信息的有效融合。研究团队还进一步对输入/输出映射施加正值约束,防止信号抵消现象的发生。
论文通过系统的实验验证了mHC框架的实际效能。在27B参数规模的对比测试中,mHC展现出卓越的训练稳定性:传统HC训练过程中损失曲线震荡发散,而mHC则保持平稳收敛,梯度范数稳定可控。分析表明,HC的复合映射增益高达3000倍,存在明显的信息爆炸风险,而mHC将此值控制在1.6左右,接近理想的恒等映射状态。
在性能表现方面,mHC在多个下游任务中全面超越HC与基线模型。特别是在BBH(Big-Bench Hard)任务上提升2.1%,DROP任务上提升2.3%,在GSM8K、MATH、MMLU等基准测试中也取得显著增益。可扩展性测试显示,从3B到27B模型规模,mHC的性能提升随模型扩大保持稳定甚至增强,证明其在大规模深度网络中的优越适配性。
系统效率优化方面,DeepSeek团队通过内核融合、重计算与通信重叠等工程手段,在扩展率n=4时仅引入6.7%的额外时间开销。内核融合使带宽提升22%,重计算降低内存占用40%,GPU利用率超过90%,实现了高效可行的工程部署。
在论文结论部分,DeepSeek团队表达了深远的学术愿景:“我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的限制,并有可能为下一代基础架构的发展指明新途径。”
值得注意的是,尽管本研究采用双随机矩阵确保稳定性,但mHC框架本身具备高度灵活性,可容纳针对特定学习目标设计的多种流形约束探索。对差异化几何约束的深入研究可能催生新颖方法,在模型可塑性与训练稳定性之间实现更优权衡。
此次论文发布正值DeepSeek下一代旗舰系统R2预计于2026年2月春节前后问世之际,凸显了公司在基础理论研究与工程实践之间的紧密协同。在AI行业普遍“卷应用、卷智能体”的背景下,DeepSeek选择“回头修补AI的地基”,展现了其“死磕底层”的技术执着与战略定力。
文章来源:综合自绍兴网《梁文锋参与撰写,DeepSeek发布最新论文》、上观新闻《DeepSeek开年炸场!梁文锋最新论文要动AI界“承重墙”》、财联社相关报道、澎湃新闻《DeepSeek开年炸场!梁文锋又发论文了,一如既往地强》等权威媒体报道,经大国Ai导航(daguoai.com)整合编辑。