Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Route Experts by Sequence, not by Token

Created by
  • Haebom
Category
Empty

저자

Tiansheng Wen, Yifei Wang, Aosong Feng, Long Ma, Xinyang Liu, Yifan Wang, Lixuan Guo, Bo Chen, Stefanie Jegelka, Chenyu You

개요

본 논문은 Mixture-of-Experts (MoE) 아키텍처에서 토큰의 복잡성에 따라 동적으로 전문가를 할당하는 Sequence-level TopK (SeqTopK)라는 새로운 라우팅 전략을 제안합니다. SeqTopK는 토큰 레벨 대신 시퀀스 레벨에서 전문가 예산을 할당하여, 어려운 토큰에는 더 많은 전문가를, 쉬운 토큰에는 더 적은 전문가를 할당합니다. 이는 기존의 추가 모듈이나 재학습 없이도 가능하며, 기존 MoE 모델과 호환됩니다. 수학, 코딩, 법률, 작문 등 다양한 벤치마크에서 기존 TopK 및 다른 적응형 방법보다 개선된 성능을 보였으며, 특히 높은 희소성 환경에서 더 큰 이점을 보였습니다.

시사점, 한계점

시사점:
간단하고 효율적인 라우팅 전략으로, 코드 몇 줄만으로 구현 가능합니다.
기존 MoE 모델에 쉽게 적용 가능하며, 사전 학습된 모델을 그대로 사용할 수 있습니다.
계산 오버헤드가 적어(1% 미만) 확장성이 뛰어납니다.
다양한 태스크에서 일관된 성능 향상을 보이며, 특히 높은 희소성 환경에서 강점을 보입니다.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없습니다.
👍