본 논문은 혼합 전문가(MoE) 모델에서의 추측적 디코딩(SD)의 효율성을 연구합니다. 기존 연구와 달리, 중간 배치 크기에서 MoE 모델이 Dense 모델보다 SD로부터 더 큰 성능 향상을 얻는다는 것을 보여줍니다. 또한, MoE 모델의 sparsity가 증가할수록 SD의 효과적인 배치 크기 범위가 넓어짐을 발견합니다. 이러한 현상을 이론적 분석에 기반한 모델링으로 정량적으로 설명하고, 수용률(acceptance rate) 뿐 아니라 작업량과 모델 아키텍처 변화가 SD 가속에 미치는 영향을 포괄적으로 고려하는 새로운 지표인 'target efficiency'를 제시합니다. 실험 결과, Qwen2-57B-A14B 모델에서 중간 배치 크기에서 최대 2.29배의 속도 향상을 달성하였으며, 이론적 예측을 검증합니다. 특히, 개인 정보 보호가 중요한 서빙 환경에서 MoE 추론 속도 향상에 새로운 관점을 제시합니다.