본 논문은 대규모 언어 모델(LLM)을 에지 디바이스에서 효율적으로 추론하기 위한 새로운 엔진인 EdgeMoE를 제안합니다. EdgeMoE는 희소 LLM의 한 종류인 MoE(Mixture-of-Expert) LLM에 초점을 맞추어, 모델을 저장 계층에 분할하여 메모리 및 연산 효율을 향상시킵니다. 비전문가 가중치는 디바이스 메모리에 저장하고, 전문가 가중치는 외부 저장소에 저장하여 활성화될 때만 메모리로 가져옵니다. 전문가 가중치의 크기 감소를 위한 비트폭 조정 및 활성화될 전문가를 미리 예측하여 로딩하는 전문가 프리로딩 기술을 추가적으로 활용하여 I/O 오버헤드를 줄입니다. 실험 결과, EdgeMoE는 경쟁 기법들에 비해 메모리 절약 및 속도 향상을 보여줍니다. 소스 코드는 깃허브에 공개되어 있습니다.