본 논문은 Mixture of Experts (MoE) 모델의 효율성과 확장성을 높이기 위한 압축 기법에 대한 종합적인 연구를 제시합니다. 기존의 Expert Trimming 기법의 한계를 극복하기 위해, MoE 계층 전체를 제거하는 Layer Drop과 Transformer 블록을 제거하는 Block Drop이라는 더욱 공격적인 전략을 제안합니다. 또한, 개별 전문가를 압축하는 Expert Slimming 기법을 새롭게 제안하여 Expert Trimming과의 통합을 통해 성능 향상을 도모합니다. 실험 결과, 제안된 방법들을 통해 Mixtral-8x7B 모델에서 6.05배의 속도 향상과 77.1%의 메모리 사용량 감소를 달성하면서 92% 이상의 성능을 유지하는 것을 보여줍니다.