Tiansheng Wen, Yifei Wang, Aosong Feng, Long Ma, Xinyang Liu, Yifan Wang, Lixuan Guo, Bo Chen, Stefanie Jegelka, Chenyu You
개요
본 논문은 Mixture-of-Experts (MoE) 아키텍처에서 토큰의 복잡성에 따라 동적으로 전문가를 할당하는 Sequence-level TopK (SeqTopK)라는 새로운 라우팅 전략을 제안합니다. SeqTopK는 토큰 레벨 대신 시퀀스 레벨에서 전문가 예산을 할당하여, 어려운 토큰에는 더 많은 전문가를, 쉬운 토큰에는 더 적은 전문가를 할당합니다. 이는 기존의 추가 모듈이나 재학습 없이도 가능하며, 기존 MoE 모델과 호환됩니다. 수학, 코딩, 법률, 작문 등 다양한 벤치마크에서 기존 TopK 및 다른 적응형 방법보다 개선된 성능을 보였으며, 특히 높은 희소성 환경에서 더 큰 이점을 보였습니다.
시사점, 한계점
•
시사점:
◦
간단하고 효율적인 라우팅 전략으로, 코드 몇 줄만으로 구현 가능합니다.
◦
기존 MoE 모델에 쉽게 적용 가능하며, 사전 학습된 모델을 그대로 사용할 수 있습니다.
◦
계산 오버헤드가 적어(1% 미만) 확장성이 뛰어납니다.
◦
다양한 태스크에서 일관된 성능 향상을 보이며, 특히 높은 희소성 환경에서 강점을 보입니다.