본 논문은 Mixture of Experts (MoE) 모델의 추론 효율성을 높이는 방법을 제시합니다. MoE는 전문가(expert)의 활성화를 스파스하게 함으로써 성능과 효율성의 균형을 맞추는 효과적인 아키텍처이지만, 전문가 병렬 처리 환경에서는 토큰-전문가 할당의 불균형으로 인해 추론 효율성이 저하되는 문제가 있습니다. 이러한 문제를 "Straggler Effect"라고 정의하며, 가장 과부하된 전문가가 전체 추론 지연 시간을 결정하는 현상을 의미합니다. 이를 해결하기 위해, 논문에서는 두 가지 방법을 제안합니다. 첫째, 과부하된 전문가로부터 초과 토큰을 버림으로써 전문가 용량 한계를 강제하는 "Capacity-Aware Token Drop"을 제안합니다. 둘째, 용량 한계 이하로 남아있는 저부하 전문가를 효율적으로 활용하기 위해, 토큰이 후보 전문가 집합에 추가적인 지역 전문가를 포함하도록 허용하는 "Capacity-Aware Expanded Drop"을 제안합니다. 실험 결과, 제안된 방법들이 전문가 활용도, 모델 성능, 추론 효율성을 크게 향상시키는 것을 보여줍니다. 예를 들어, Mixtral-8x7B-Instruct 모델에 Expanded Drop을 적용했을 때, 평균 성능은 0.2% 향상되었고 추론 속도는 1.85배 빨라졌습니다.