MoE 混合专家模型

约 1398 字大约 5 分钟

2026-03-25

一、什么是 MoE

MoE Mixture of Experts，混合专家模型，追根溯源是一种根据不同任务自动切换不同处理器的任务完成思路。

在 LLM 中，MoE是指将transformer的全连接层 FFN 替换为若干个较小的并行的 FFN，称为专家；并且使用一个路由器Router分配这些专家对输入的匹配度，仅激活top-k个专家，最后根据Router计算的匹配度聚合这些专家计算的结果作为输出。

MoE由Google和deepseek发扬光大，特别是deepseek，25年初发布的V1版本使用MoE，极大地提升了推理速度。因为在推理时，仅部分专家被激活，而不用像原来巨大的FFN那样全部神经元都参与计算，所以其计算量大大降低。

二、原理

MoE 有两个主要组件：Router，若干 FFN 专家。其结构大致为：

2.1 MOEGate / Router

在训练时，Router计算出各FFN与输入的匹配度，并激活对于 top-k 个专家前向传播，在反向传播时通过梯度更新Router参数，使得结果好的专家在当前任务下具有更高的权重/匹配度。

但是有一个问题，FFNs是随机初始化的，若是恰巧某个专家效果很好，后续Router会一直给他增加权重，进而形成正反馈，使该FFN得到训练从而效果更加，而其他FFN则由于训练少而性能差，所以需要一个方法解决这个被称为“专家负载不均”的问题。

业界最通用的做法是引入辅助损失函数，它的核心思想是强制让每个专家处理的 Token 数量和被分配的概率趋于一致。该辅助损失函数为：

Loss_{aux} = \alpha N \sum\limits_{i=1}^N f_i P_i

其中， $\alpha$ 是超参数，一般很小，约为 $10^{-2},10^{-3}$ 防止辅助损失函数占比太大，而导致Router乱分配； $N$ 是被激活的专家数； $f_i$ 为实际分配比例，即专家i实际被分配到的token数量与总token的比例， $P_i$ 为预测概率比例，即Router对专家i计算的匹配度的平均值。

当然，也可以通过添加随机噪声、偏置，实现“负载均衡”。

在推理时，不会有这种过分配的惩戒。

2.2 MoE-FFN

对于一个输入，MoE中若干FFN中的某些会被激活并计算结果，然后依靠反向传播进行训练。

在推理时同样被Router选择并激活，没有反向传播。

2.3 结果聚合

使用归一化方法聚合，在Router计算出各个FFN对输入的匹配度后，会选取 top-k 个FFN激活，但是由于截断了后面的匹配度，所以这k个FFN的匹配度的和不为1，因此需要对FFNs的计算结果进行归一化聚合，即：

y = \dfrac{\sum G_i E_i}{\sum G_i}

其中， $G_i,\ E_i$ 分别为 Router计算的专家i的匹配度 Logits，专家i的输出。

MoE 混合专家模型

一、什么是 MoE

二、原理

2.1 MOEGate / Router

2.2 MoE-FFN

2.3 结果聚合

三、为什么 MoE

四、关键问题

五、发展

5.1 发展趋势

专家细粒度化

共享专家机制

负载均衡

5.2 瓶颈

版权所有