본 논문은 Mixture-of-Experts (MoE) 아키텍처를 기반으로 하는 대규모 언어 모델(LLM)의 자원 제약 환경에서의 효율적인 추론을 위한 시스템, Fiddler를 제안합니다. 기존 시스템들이 CPU와 GPU 간 데이터 이동 오버헤드 문제나 CPU와 GPU의 특성 차이 고려 부족으로 어려움을 겪는 반면, Fiddler는 최적의 실행 전략을 결정하여 CPU와 GPU 자원을 전략적으로 활용합니다. 실험 결과, Fiddler는 단일 배치 추론, 긴 prefill 처리, beam search 추론 등 모든 시나리오에서 기존 최첨단 시스템보다 우수한 성능을 보였습니다. 단일 배치 추론에서 1.26배, 긴 prefill 처리에서 1.30배, beam search 추론에서 11.57배의 속도 향상을 달성했습니다. Fiddler의 코드는 공개적으로 제공됩니다.