Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Models
Created by
Haebom
Category
Empty
저자
Yongxin Guo, Zhenglin Cheng, Xiaoying Tang, Zhaopeng Tu, Tao Lin
개요
본 논문은 Transformer 기반 기초 모델의 훈련 및 추론 효율을 높이기 위해 널리 사용되는 Sparse Mixture of Experts (SMoE)의 한계점을 해결하기 위해 Dynamic Mixture of Experts (DynMoE) 기법을 제시합니다. SMoE는 전문가 수와 활성화할 전문가 수(top-k)와 같은 하이퍼파라미터 선택에 크게 의존하며, 다양한 하이퍼파라미터 설정을 검색하는 광범위한 모델 훈련으로 인해 상당한 계산 오버헤드가 발생하는 문제가 있습니다. DynMoE는 (1) 각 토큰이 활성화할 전문가 수를 자동으로 결정하는 새로운 게이팅 방법과 (2) 훈련 중 전문가 수를 자동으로 조정하는 적응형 프로세스를 통합하여 이러한 문제를 해결합니다. 비전, 언어 및 비전-언어 작업에 대한 광범위한 실험 결과는 DynMoE가 GMoE(비전 및 언어 작업)와 MoE-LLaVA(비전-언어 작업)에 비해 경쟁력 있는 성능을 달성하면서 더 적은 매개변수를 활성화하여 효율성을 유지함을 보여줍니다. 코드는 https://github.com/LINs-lab/DynMoE 에서 확인할 수 있습니다.