大規模LLM(Large Language Model、大規模言語モデル)の効率化手法として注目されているMoE(Mixture of Experts:複数の小モデルが入力に応じて分担処理する仕組み)に、再学習なしで推論コストを半減させる手法が登場しました。arXivに2026年5月19日に公開された論文「Post-Trained MoE Can Skip Half Experts via Self-Distillation」は、ZEDA(Zero-Expert Self-Distillation Adaptation)と呼ぶ手法でMoEモデルを動的化し、推論時のエキスパート計算量を50%以上削減しながら性能劣化を最小限に抑えることを示しています。本番稼働中のモデルをスクラッチから作り直さずに最適化できる点が、開発現場に直結する強みです。
背景と文脈
MoEアーキテクチャは近年のLLMで広く採用されています。Mixtral(Mistral AI)やQwen3(Alibaba)、GLM(Zhipu AI)など、現在の主要モデル群がこの設計を採用しています。MoEの特徴は、入力トークンごとに「どのエキスパート(サブモデル)を使うか」をルーターが動的に選択することです。全エキスパートを常時稼働させる必要がないため、パラメータ数の割に計算コストを抑えられます。
しかし従来のMoEは「静的」な構造を持っています。つまり、学習時に決めたエキスパート配置や呼び出し頻度は推論時にも固定されます。「簡単なトークン」でも「難しいトークン」でも同じ数のエキスパートを呼び出すため、計算リソースが効率的に使われないという課題がありました。
これを解決するには「動的MoE」化が必要ですが、一般的には再学習(フルトレーニング)が必要でコストが膨大です。本番運用中のモデルに適用するには現実的ではありませんでした。ZEDAはこの課題に「事後最適化(ポストトレーニング)」という形で取り組んでいます。
技術/ビジネス面
ZEDAの仕組みは2段階です。まず、各MoE層にパラメータを持たない「ゼロ出力エキスパート」を挿入します。このエキスパートは文字通り何も出力しないダミーで、ルーターが「このトークンは難しくないのでエキスパート処理をスキップする」という選択肢を取れるようにします。
次に、元のMoEモデルを「教師」として固定した上で、新しい動的モデルを自己蒸留(self-distillation:教師モデルの出力分布を教師信号として学習する手法)で学習させます。グループレベルのバランシングロスを組み合わせることで、全エキスパートが偏りなく活用されるよう安定して学習が進みます。
性能面の結果は明確です。数学・コード生成・命令追従の11のベンチマーク(評価テスト)で検証し、エキスパート計算量を50%以上削減しながら精度の劣化は最小限でした。Qwen3-30B-A3BとGLM-4.7-Flashへの適用では、既存の動的MoEアプローチと比べてそれぞれ6.1ポイント、4.0ポイント上回りました。エンドツーエンドの推論速度は約1.20倍の高速化を実現しています。
これからどうなるか
ZEDAが示す最大のポイントは「本番稼働中のMoEモデルに後から適用できる」という点です。スクラッチからの再学習を伴わずに動的化できるため、クラウドやオンプレミスでMoEモデルをすでに運用しているチームにとって現実的な選択肢です。
1.20倍の速度改善という数字は一見控えめに見えますが、大規模な推論インフラでは直接コスト削減に結びつきます。月間の推論コストが大きいサービスでは、このクラスの改善が経済的に意味を持ちます。また「エキスパート計算を半分にしても性能が落ちにくい」という事実は、将来的なより積極的なスパース化の可能性も示しています。
開発者にとっての実務的な活用としては、QwenやGLMなどMoE系モデルをAPI経由でなくセルフホストで動かしているチームが最も恩恵を受けやすい手法です。公開実装が整えば、既存の推論パイプラインにZEDAを組み込むことで、ハードウェアの増強なしにスループットを上げられる可能性があります。ファインチューニング済みのMoEモデルへの適用可能性も今後の検証課題です。
まとめ
ZEDA(Zero-Expert Self-Distillation Adaptation)は、フルトレーニングなしでMoEモデルをエキスパート計算量50%超削減・約1.20倍高速化する事後最適化手法です。Qwen3やGLMなど主要MoEモデルで検証済みで、本番稼働中のモデルに後から適用できる実用性の高さが特徴です。
参考リンク
アイキャッチ画像: Photo by KOBU Agency on Unsplash

