MoQE는 모델 효율성을 개선하고 배포 비용을 절감하기 위해 혼합 전문가(MoE) 아키텍처 기반의 양자화 추론 프레임워크를 제안합니다. MoQE는 여러 양자화 변형을 전문 "양자화 전문가"로 결합하고 입력 데이터를 특성에 따라 가장 적합한 전문가에게 동적으로 라우팅합니다. ResNet, LLaMA, Qwen 모델을 사용하여 ImageNet, WikiText, C4, OpenWebText 데이터셋에서 실험한 결과, MoQE는 SOTA 양자화 모델과 유사한 성능을 달성하면서 추론 지연 시간을 크게 증가시키지 않았습니다.