MoE(Mixture of Experts) 모델은 대규모 언어 모델 확장에 핵심적이지만, dense network와의 기계적 차이점은 여전히 잘 알려져 있지 않다. 본 논문은 특징 희소성이나 중요성이 MoE에 영향을 미치지 않으며, 네트워크 희소성(활성 expert 대 전체 expert의 비율)이 MoE를 더 잘 특징짓는다는 것을 발견했다. 또한, 전문가 간의 superposition을 측정하기 위한 새로운 지표를 개발했다. 연구 결과, 네트워크 희소성이 클수록 monosemanticity가 증가하며, 적절한 초기화 조건에서 experts가 일관된 특징 조합을 중심으로 자연스럽게 조직된다는 것을 보여준다.