混合专家模型(MoE,of)是一种通过动态激活部分网络结构来提高计算效率的架构。它可以显着增加参数数量,同时保持相对稳定的计算成本,从而有效提高模型性能。
这一特性使得MoE能够兼顾模型的规模和效率,并已广泛应用于各种大型任务中。
然而,MoE模型通常需要在大型数据集上进行预训练才能获得理想的性能,导致对时间和计算资源的要求极高,这也限制了其在深度学习社区的普及。
为了解决这个问题,华中科技大学的研究人员提出了MoE框架,利用密集模型(Dense)的预训练权重对视觉混合专家模型(MoE,of)进行微调。
目前,2024年该职位已被接受。

论文标题:MoE:从密集任务到任务任务
论文地址:
代码地址:
教育部框架的核心创新包括:
1.:通过采样密集模型权重形成差异化专家,形成MoE模型的初始权重,从而加速模型收敛,提高性能,避免大规模MoE模型预训练。
2. Layer:通过调整MoE结构,利用交叉注意力机制进行专家分配,将query和key投影到超球面空间中,提高微调过程的稳定性,有效缓解MoE的微调过程通过一系列专家正则化方法建立模型。过拟合现象。
实验结果表明,MoE 在多个数据集和网络结构上实现了显着的性能提升。 -1K上,模型收敛速度提升2倍,准确率提升2.8%;在小规模数据集上,收敛速度可提高8倍,准确率提高30%以上。

图 1 (a) MoE 将密集的预训练权重转换为 MoE 模型的初始化权重,在保持等效 FLOP 的同时提高性能。 (b) 非预训练 ViT、微调 ViT、非预训练 Soft MoE 和 MoE 在多个视觉数据集上的性能比较。
在多个下游数据集上的实验表明,该框架可以有效地利用预训练的权重来实现更快的收敛和更好的性能。
研究方法
MoE的核心由两个阶段组成:(用于MoE模型的初始化)和层(用于微调MoE模型),如下图所示。

图2及结构
:作为MoE的基础阶段,通过将预训练的稠密模型权重转换为高质量的MoE初始化权重,新模型可以在性能和收敛速度上得到提高。
具体来说,从密集加权的多层感知器(MLP)中采样部分权重来构建专家层,以保证专家的多样性和灵活性。
本文比较了四种主要的重量回收策略:
1. 重要性抽样(-based):重要性抽样是MoE默认的权重抽样方法。通过计算输出特征的均值,选择top-d'个最重要的特征维度,同时根据隐藏单元的激活值独立执行。采样。该方法确保每个专家都包含关键特征和隐藏单元,有助于提高模型的初始化质量和训练效率。
2.图划分方法(Co-Graph):图划分方法通过构造共激活图将经常被激活的隐藏单元分组,并使用图划分算法(如Metis)将密集加权的隐藏单元划分为多个子图。不同的子图组合起来形成不同的专家层,保证专家关注不同的功能领域,提高模型的特征表达能力。
3. 均匀采样( ):均匀采样在特征维度和隐藏单元上统一选择权重,以保证每个 MoE 专家层的初始化权重均衡分布。该方法实现简单,但没有考虑特征的重要性,因此性能提升效果比较平均。
4. 随机采样( ):随机采样是从特征维度和隐藏单元中随机选择,生成专家层的初始化权重。这种方法实现简单,但由于没有关注特征的重要性,因此性能通常较低。
引入的计算开销几乎可以忽略不计,而模型性能和收敛速度却显着提高。
层
MoE模型权重初始化后,该层进一步优化微调过程。层的引入解决了MoE模型在优化过程中面临的数值不稳定和专家过于专一的问题。它使用三种机制来提高模型在下游任务中的性能和稳定性:
1.超球路由机制:利用交叉结构,将输入动态分配给MoE模型的不同专家。该机制首先将随机初始化的专家查询(Q,query)和输入密钥(K,key)进行归一化投影(L2 Norm)到超球面空间以保证数值稳定性,并通过余弦相似度选择输入相应的专家。最终输出由每位专家的结果组合而成,以确保MoE模型和稠密模型的输出特征之间的分布一致性。
2. 自适应双路径MoE:为了提高计算效率,路由将输入分为高重要性和低重要性两类,并引导它们进入不同的计算路径:高重要性的输入被分配给包含较大数量的核心专家参数。 ;低重要性的输入进入包含较小专家的公共路径。这样的双路径结构通过划分细粒度的专家来增加专家的数量,优化资源利用率,提高模型性能和计算效率。

图3 自适应双路MoE
3.专家正则化:为了避免专家层过度关注特定输入或过度专业化,本文引入了可学习的软温度参数来调整平滑程度,以精确控制输入的分布和输出的组合。
另外,专家随机停用机制的使用可以有效防止模型对特定专家的依赖。
这些设计使MoE不仅具有更快的收敛速度,而且在下游任务微调方面实现了显着的性能提升。
实验结果
本文对 ViT 和两种典型网络结构以及八个图像分类任务进行了广泛的实验。实验结果表明,MoE在性能上明显优于随机初始化的Soft MoE模型,并且使用密集权重的微调效果明显优于直接微调预训练的密集模型。

表1 基于ViT的MoE和8个下游数据集的性能
此外,论文还对MoE的各种配置进行了深入研究,系统分析了不同专家数量、不同原始网络规模等因素对模型性能的影响。

表 2 MoE 具有不同的参数量,显示出显着的性能改进
下图展示了MoE在整个微调过程中对加速模型收敛和提高模型性能的影响,凸显了其作为MoE模型预训练替代方案的潜力。

图4 MoE带来收敛速度的提升
专家注意力图显示,不同的专家关注图像的不同区域,各司其职。专家贡献分布图显示,不同级别的核心专家和普通专家的贡献存在显着差异,展示了模型的自适应路由和调度机制。

图5 专家注意力图和专家贡献分布图
总结
MoE 是一个创新框架,旨在有效地将预训练的密集模型权重转换为 MoE 模型。通过提出技术,MoE可以有效继承密集模型的知识;引入的层显着提高了微调过程的稳定性和性能。
该框架不仅降低了MoE模型的训练成本和硬件要求,还减少了对环境的影响,使研究人员可以轻松地使用普通计算资源的混合专家模型,为MoE的广泛研究和应用提供有力支持。
参考:


