Efficiently Editing Mixture-of-Experts Models with Compressed Experts
Created by
Haebom
Category
Empty
저자
Yifei He, Yang Liu, Chen Liang, Hany Hassan Awadalla
개요
본 논문은 Mixture-of-Experts (MoE) 모델의 효율적인 확장을 위해 압축된 전문가(compressed experts) 개념을 제안합니다. 기존 MoE 모델은 학습 및 추론 시 일부 전문가만 활성화시키지만, 모든 활성화된 전문가가 성능에 동등하게 기여하지 않는다는 문제점이 있습니다. 본 논문은 중요하지 않은 전문가들을 압축된 전문가로 대체하여 활성화 매개변수 수를 줄이고 추론 비용을 절감하는 방법을 제시합니다. Phi-MoE와 OLMoE 모델을 대상으로 한 실험 결과, 압축된 전문가는 전체 전문가 성능의 90% 이상을 회복하면서 활성 매개변수를 30% 이상, 추론 비용을 20% 이상 절감하는 것으로 나타났습니다. 이는 자원 제약 환경에서 MoE 모델의 효율적인 배포 및 더 큰 모델로의 확장을 가능하게 합니다. 코드는 https://github.com/yifei-he/Compressed-Experts 에서 확인할 수 있습니다.