DeepSeek新论文：MHC是什么？一文看懂残差网络→HC→MHC进化史

残差网络 ResNet 是什么？

大模型输入数据后，会逐层流过多个神经元层，每层都对数据进行处理并输出结果。把每层抽象为一个函数 y = f(x)，输入是上一层的输出。

问题来了：层数多了，信号会衰减。 极端情况下，如果某一层输出接近 0，后续层的信号越来越弱，就像传话游戏中间有人声音太小，最后完全失真。

解决方案很简单但有效：让每层输出时都加上这一层的原始输入，即 y = f(x) + x。这样就算 f(x) 处理出问题，至少还有个保底的原始输入 x。信号可以安全地从浅层传到深层，训练更稳定。因为模型能同时学到输出和输入的差异（残差），所以叫残差网络（ResNet）。

残差网络解决了稳定性，让模型能堆到上百层。但想让大模型更聪明，要么”学得更多”（增加训练数据），要么”想得更多”（增加层间传递的信息量）。

2024 年，字节跳动的团队在”想得更多”上发力：将原本单通道的信号扩展成多通道。通过乘以一个矩阵，把同一份数据变换成 N 种不同表示，让模型每层都能从不同角度处理数据。这个方案叫超连接 Hyper Connections（HC），效果显著——模型推理能力和知识储备都有提升。

但 HC 有个问题：每层都有矩阵乘法，层数多了就是矩阵连乘，数值越乘越大。信号传播过程中能被放大几千倍，参数更新剧烈震荡 → 梯度爆炸，严重时训练崩溃。

DeepSeek 发现这个问题后，在 HC 基础上加了一个约束矩阵：要求矩阵的每一行、每一列加起来都等于 1（即”双随机矩阵”）。有了这个约束，连乘后的数值被限制在合理范围内，不会失控。本质上是一个高级版的归一化操作。

加了双随机矩阵约束的 HC 方案，就叫流形约束超连接 MHC（Manifold Constraint Hyper Connections）。

实验数据证明：在 27B 参数模型上，MHC 信号放大只有 1.6 倍，而 HC 高达 3000 倍，训练稳定性大幅提升。

MHC 在 HC 基础上多乘了一个双随机矩阵，计算量增加。DeepSeek 的解法是在其他地方省时间：将多个小算子融合成大算子，减少 CPU 和 GPU 之间的数据传输。通道数扩展 4 倍的情况下，额外时间开销仅 **6.7%**。