MoE Compression¶

约 246 个字预计阅读时间 1 分钟

SMoE（Sparse Mixture of Experts）的显存与部署压力主要来自专家总参数量与加载，与稠密 FFN 剪枝的设定不同。近年工作多围绕：专家级或神经元级删除/重分配、用路由/激活指引剪专家内部或整条专家、子空间/输出视角的专家合并等。

近年来相关论文如下：