본 논문은 혼합 전문가(MoE) 계층의 활성 전문가 수, 즉 세분성(granularity)이 모델의 표현력에 미치는 영향을 이론적 및 실험적으로 분석합니다. 많은 활성 전문가(예: DeepSeek의 계층당 8개)를 사용하는 구조와 적은 활성 전문가(예: Llama-4 모델의 계층당 1개)를 사용하는 구조를 비교하여, 세분성이 높을수록 네트워크의 표현력이 기하급수적으로 향상됨을 증명하고 실험 결과를 통해 확인합니다. 계산 비용을 줄이면서 전체 파라미터 수를 확장하는 MoE 계층의 특성을 고려하여, 세분성의 중요성을 강조합니다.