この論文では、大規模言語モデル(LLM)の推論コストを削減するための新しいフレームワークであるDecomposition of Experts(DoE)を提案します。 DoEは、特定のタスクに重要な役割を果たすニューロンを「専門家」として定義し、タスクごとにその専門家を動的に識別して活性化することによって推論をスピードアップします。ユーザーの要求を受け取ると、DoEはその作業の専門家を見つけ、その専門家だけを使用して推論を実行し、作業が完了すると元のモデルに復元する4つのステップを経ます。実験の結果、DoEは最大1.73倍の推論速度向上と65%のパラメータ減少を達成しながら精度を維持することを示しています。様々な専門家同定方法との比較、ablation studyを通じてDoEの有効性とコンポーネントの重要性を検証し、バッチサイズ、トークン数、レイヤータイプなどが推論速度向上に及ぼす影響も分析した。 DoEはTransformerベースのアーキテクチャに適用可能で、スケーラビリティに優れた実用的なフレームワークです。