In-depth Analysis on Caching and Pre-fetching in Mixture of Experts Offloading
Created by
Haebom
Category
Empty
저자
Shuning Lin, Yifan He, Yitong Chen
개요
본 논문은 Mixture of Experts (MoE) 모델의 메모리 문제 해결을 위한 MoE 오프로딩 기술을 연구한다. 특히, 캐싱과 사전 인출 기법을 활용하여 성능을 향상시키는 데 초점을 맞춘다. 주요 기여는 다음과 같다: 전문가 활성화 및 LRU 캐싱 동작 분석, LFU 캐싱 최적화 제안, 추측적 전문가 사전 인출 구현 및 실험, MoE 아키텍처 자체의 특성 분석.