본 논문은 Mixture of Experts (MoE) 모델의 효율적인 학습 방법인 Drop-Upcycling을 제안합니다. MoE 모델은 동일한 용량의 밀집 모델에 비해 훈련 및 추론 비용을 크게 줄일 수 있지만, 기존의 업사이클링 방법은 장기적으로 최적의 성능을 내지 못하는 한계가 있습니다. Drop-Upcycling은 사전 훈련된 밀집 모델의 지식을 활용하면서 일부 가중치를 통계적으로 재초기화하는 방법으로, 전문가의 특화를 촉진하여 MoE 모델의 지식 습득 효율을 크게 향상시킵니다. 대규모 실험 결과, Drop-Upcycling은 수천억 개 이상의 토큰으로 훈련할 때 기존 방법보다 장기적으로 훨씬 우수한 성능을 보이며, 5.9B 매개변수의 MoE 모델이 13B 매개변수의 밀집 모델과 유사한 성능을 달성하면서 훈련 FLOPs는 약 1/4 수준으로 줄이는 것을 확인했습니다. 모든 실험 자료는 공개적으로 제공됩니다.