CompeteSMoE -- Statistically Guaranteed Mixture of Experts Training via Competition
Created by
Haebom
저자
Nam V. Nguyen, Huy Nguyen, Quang Pham, Van Nguyen, Savitha Ramasamy, Nhat Ho
개요
Sparse Mixture of Experts (SMoE)는 네트워크의 깊이 또는 너비를 증가시키는 것보다 모델 복잡성을 확장하는 매력적인 솔루션을 제공하지만, 계산을 수행하는 전문가가 라우팅 프로세스에 직접적으로 기여하지 않는 비최적 라우팅 프로세스 때문에 효과적인 SMoE 훈련이 여전히 어렵다는 주장을 제기합니다. 본 논문에서는 가장 높은 신경 반응을 가진 전문가에게 토큰을 라우팅하는 새로운 메커니즘인 경쟁(competition)을 제안합니다. 이론적으로 경쟁 메커니즘은 기존의 softmax 라우팅보다 더 나은 샘플 효율을 갖는다는 것을 보여줍니다. 또한, 라우터를 배포하여 경쟁 정책을 학습함으로써 대규모 언어 모델을 훈련하는 간단하지만 효과적인 알고리즘인 CompeteSMoE를 개발하여 낮은 훈련 오버헤드로 강력한 성능을 얻습니다. 시각적 지시 튜닝 및 언어 사전 훈련 작업에 대한 광범위한 실험적 평가는 최첨단 SMoE 전략과 비교하여 CompeteSMoE의 효능, 강건성 및 확장성을 보여줍니다. 구현은 https://github.com/Fsoft-AIC/CompeteSMoE 에서 사용할 수 있습니다. 이 연구는 arXiv:2402.02526의 이전 연구를 개선한 버전입니다.