본 논문은 Mixture-of-Experts (MoE) 모델의 효율성 저하 문제를 새로운 관점에서 해결하고자 합니다. 기존 연구들이 주로 부하 불균형 문제에 초점을 맞춘 반면, 본 논문은 전문가 네트워크 간의 협업 및 전문화 패턴에 주목합니다. 특히, 과도한 협업으로 인한 통신 오버헤드 증가 문제를 지적하며, 전문화된 전문가 그룹을 장려하는 새로운 라우팅 전략인 C2R (Collaboration-Constrained Routing)을 제안합니다. C2R 전략은 전문가 활용도를 개선하고 통신 비용을 줄여 MoE 모델의 효율성을 향상시킵니다. LLaMA-MoE와 Qwen-MoE 모델을 대상으로 한 실험 결과, C2R 전략은 기존 최고 성능(MegaBlocks) 대비 추가적으로 20%-30%의 실행 시간 단축 효과와 함께, 다운스트림 NLP 벤치마크에서 평균 0.51% (LLaMA-MoE) 및 0.33% (Qwen-MoE)의 성능 향상을 달성했습니다.