Continual Pre-training of MoEs: How robust is your router?
Created by
Haebom
Category
Empty
저자
Benjamin Therien, Charles-Etienne Joseph, Zain Sarwar, Ashwinee Panda, Anirban Das, Shi-Xiong Zhang, Stephen Rawls, Sambit Sahu, Eugene Belilovsky, Irina Rish
개요
본 논문은 Sparsely-activated Mixture of Experts (MoE) 트랜스포머의 지속적 사전 훈련(CPT)에 대한 대규모 실험 연구를 제시합니다. 기존 연구에서 밀집 디코더 전용 트랜스포머의 CPT에 효과적이었던 replay와 학습률 재가열 및 재감소 전략이 MoE 트랜스포머에도 적용 가능한지, 그리고 라우팅 알고리즘이 CPT 성능에 미치는 영향을 조사합니다. 20억 개 이상의 매개변수를 가진 Switch 및 DeepSeek MoE LLMs을 6000억 토큰으로 훈련하여 Sinkhorn-Balanced와 Z-and-Aux-loss-balanced 라우팅 알고리즘의 강건성을 평가하고, replay 없이도 MoE LLMs이 분포 변화에 대한 놀라운 강건성을 보이며, FLOP 매칭된 밀집 모델에 비해 샘플 효율성을 유지하고, 전체 재훈련된 MoE의 성능에 근접하는 결과를 얻었다는 것을 보여줍니다.
시사점, 한계점
•
시사점:
◦
MoE 트랜스포머는 replay 없이도 분포 변화에 강건하며, CPT 후에도 샘플 효율성을 유지합니다.
◦
Sinkhorn-Balanced와 Z-and-Aux-loss-balanced 라우팅 알고리즘 모두 CPT에 효과적임을 보였습니다.
◦
MoE LLMs는 전체 재훈련 비용의 일부만으로도 전체 재훈련된 MoE와 유사한 성능을 달성할 수 있습니다.
◦
기존 밀집 모델에 적용된 CPT 전략이 MoE 모델에도 효과적으로 적용될 수 있음을 보여줍니다.
•
한계점:
◦
본 연구는 특정 MoE 아키텍처와 라우팅 알고리즘에 국한되어, 다른 아키텍처나 알고리즘에 대한 일반화 가능성은 제한적입니다.