0%

DeepSeek新论文:MHC是什么?一文看懂残差网络→HC→MHC进化史

视频链接:https://www.bilibili.com/video/BV1jgifB7EAp


残差网络 ResNet 是什么?

大模型输入数据后,会逐层流过多个神经元层,每层都对数据进行处理并输出结果。把每层抽象为一个函数 y = f(x),输入是上一层的输出。

问题来了:层数多了,信号会衰减。 极端情况下,如果某一层输出接近 0,后续层的信号越来越弱,就像传话游戏中间有人声音太小,最后完全失真。

解决方案很简单但有效:让每层输出时都加上这一层的原始输入,即 y = f(x) + x。这样就算 f(x) 处理出问题,至少还有个保底的原始输入 x。信号可以安全地从浅层传到深层,训练更稳定。因为模型能同时学到输出和输入的差异(残差),所以叫残差网络(ResNet)。

超连接 HC 是什么?

残差网络解决了稳定性,让模型能堆到上百层。但想让大模型更聪明,要么”学得更多”(增加训练数据),要么”想得更多”(增加层间传递的信息量)。

2024 年,字节跳动的团队在”想得更多”上发力:将原本单通道的信号扩展成多通道。通过乘以一个矩阵,把同一份数据变换成 N 种不同表示,让模型每层都能从不同角度处理数据。这个方案叫超连接 Hyper Connections(HC),效果显著——模型推理能力和知识储备都有提升。

MHC 是什么?

但 HC 有个问题:每层都有矩阵乘法,层数多了就是矩阵连乘,数值越乘越大。信号传播过程中能被放大几千倍,参数更新剧烈震荡 → 梯度爆炸,严重时训练崩溃。

DeepSeek 发现这个问题后,在 HC 基础上加了一个约束矩阵:要求矩阵的每一行、每一列加起来都等于 1(即”双随机矩阵”)。有了这个约束,连乘后的数值被限制在合理范围内,不会失控。本质上是一个高级版的归一化操作。

加了双随机矩阵约束的 HC 方案,就叫流形约束超连接 MHC(Manifold Constraint Hyper Connections)

实验数据证明:在 27B 参数模型上,MHC 信号放大只有 1.6 倍,而 HC 高达 3000 倍,训练稳定性大幅提升。

代价是什么?

MHC 在 HC 基础上多乘了一个双随机矩阵,计算量增加。DeepSeek 的解法是在其他地方省时间:将多个小算子融合成大算子,减少 CPU 和 GPU 之间的数据传输。通道数扩展 4 倍的情况下,额外时间开销仅 **6.7%**。

一个比喻

  • 残差网络 = 一条车道,让车能稳定地跑
  • HC = 多车道,流量大了但容易失控
  • MHC = 加了限速和交通规则的多车道,既保证流量又避免失控