본 논문은 대규모 언어 모델(LLM)의 확장성을 위한 핵심 기술인 MoE(Mixture of Experts)의 추론 효율 향상에 초점을 맞추고 있습니다. 기존의 최첨단 MoE 추론 프레임워크인 DeepSpeed-MoE는 3D 병렬 처리(EP, TP, DP)를 사용하지만, 토큰 활성화 라우팅을 위한 전송 과정에서 EP 병렬 처리의 통신 오버헤드가 병목 현상을 일으키는 문제점을 지적합니다. 이를 해결하기 위해, 본 논문에서는 예측적 MoE(Speculative MoE) 기법을 제안합니다. Speculative MoE는 예측적 토큰 셔플링과 예측적 전문가 그룹화라는 두 가지 예측적 병렬화 방식을 통해 토큰과 전문가의 라우팅 경로를 미리 예측하고 스케줄링하여 EP의 통신량을 줄임으로써 효율성을 향상시킵니다. DeepSpeed-MoE 뿐만 아니라 SGLang과 같은 다른 MoE 추론 엔진에도 적용 가능하며, 고속 동종 및 저속 이종 상호 연결 환경에서 모두 성능 향상을 보입니다.