본 논문은 Mixture of Experts (MoE) 모델의 추론 과정에서 발생하는 부하 불균형 문제, 즉 특정 전문가(expert)에 과도한 토큰이 할당되는 "Straggler Effect"를 해결하기 위한 Capacity-Aware Inference 방법을 제안합니다. 이 방법은 과부하된 토큰을 버리는 Capacity-Aware Token Drop과 과부하된 토큰을 활용도가 낮은 전문가에게 재할당하는 Capacity-Aware Token Reroute 두 가지 기술을 포함합니다. 이를 통해 전문가들의 활용도를 균형있게 조절하여 MoE 모델의 추론 효율성을 향상시킵니다. Mixtral-8×7B-Instruct 모델을 이용한 실험 결과, 평균 성능 0.2% 향상과 1.94배의 추론 속도 향상을 보였습니다.