본 논문은 대규모 언어 모델의 필수 요소인 다층 퍼셉트론(MLP)의 해석성, 편집성, 제어성 향상을 위한 새로운 방법인 Mixture of Decoders (MxDs)를 제안합니다. 기존의 뉴런 단위 희소성 기반 방법들이 정확도 저하 문제를 겪는 것과 달리, MxDs는 계층 단위 희소성을 통해 이러한 문제를 해결합니다. MxDs는 사전 훈련된 밀집 계층을 수만 개의 특수화된 하위 계층으로 확장하여 유연한 텐서 분해를 통해 각 하위 계층이 전치 행렬을 구현하도록 합니다. 이를 통해 높은 희소성에도 원래 디코더의 표현 능력을 유지하며, 최대 30억 개의 매개변수를 가진 언어 모델에서 최첨단 방법보다 우수한 성능을 보입니다. 또한, 희소 프로빙 및 특징 제어 평가를 통해 자연어의 특징을 학습하는 것을 보여줍니다.