Enabling MoE on the Edge via Importance-Driven Expert Scheduling
Created by
Haebom
Category
Empty
저자
Guoying Zhu, Meng Li, Haipeng Dai, Xuechen Liu, Weijun Wang, Keran Li, Jun xiao, Ligeng Chen, Wei Wang
개요
본 논문은 쿼리당 전문가의 하위 집합만 활성화하여 대규모 언어 모델(LLM)을 확장하기 위한 핵심 기술인 MoE(Mixture of Experts) 아키텍처를 소개합니다. 특히, 제한된 장치 메모리 환경에서 동적 전문가 오프로딩을 필수적으로 만드는, 소비재 등급의 엣지 하드웨어에 MoE를 배포하는 데 초점을 맞춥니다. 저자들은 오프로딩을 단순한 스케줄링 문제로 취급하는 기존 연구와 달리, 전문가의 중요도를 활용하여 의사 결정을 내립니다. 활성화된 중요도가 낮은 전문가는 GPU 메모리에 이미 캐시된 기능적으로 유사한 전문가로 대체하여 정확도를 유지합니다. 이 설계는 메모리 사용량과 데이터 전송을 줄이는 동시에 PCIe 오버헤드를 크게 줄입니다. 또한, GPU 캐시된 전문가의 재사용률을 최대화하는 스케줄링 정책을 도입하여 효율성을 더욱 향상시킵니다.
시사점, 한계점
•
시사점:
◦
낮은 중요도의 전문가를 캐시된 유사 전문가로 대체하여 메모리 사용량 감소.
◦
PCIe 오버헤드 제거.
◦
GPU 캐시된 전문가의 재사용률을 극대화하는 스케줄링 정책 도입.
◦
48% 낮은 디코딩 지연 시간과 60% 이상의 전문가 캐시 적중률을 달성하면서 정확도 유지.
•
한계점:
◦
논문에 구체적인 한계점 언급 없음. (하지만 논문 요약이므로, 실제 논문에는 더 자세한 내용이 포함될 수 있음)