Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Advancing MoE Efficiency: A Collaboration-Constrained Routing (C2R) Strategy for Better Expert Parallelism Design

Created by
  • Haebom

저자

Mohan Zhang, Pingzhi Li, Jie Peng, Mufan Qiu, Tianlong Chen

개요

본 논문은 Mixture-of-Experts (MoE) 모델의 효율성 저하 문제를 새로운 관점에서 해결하고자 합니다. 기존 연구들이 주로 부하 불균형 문제에 초점을 맞춘 반면, 본 논문은 전문가 네트워크 간의 협업 및 전문화 패턴에 주목합니다. 특히, 과도한 협업으로 인한 통신 오버헤드 증가 문제를 지적하며, 전문화된 전문가 그룹을 장려하는 새로운 라우팅 전략인 C2R (Collaboration-Constrained Routing)을 제안합니다. C2R 전략은 전문가 활용도를 개선하고 통신 비용을 줄여 MoE 모델의 효율성을 향상시킵니다. LLaMA-MoE와 Qwen-MoE 모델을 대상으로 한 실험 결과, C2R 전략은 기존 최고 성능(MegaBlocks) 대비 추가적으로 20%-30%의 실행 시간 단축 효과와 함께, 다운스트림 NLP 벤치마크에서 평균 0.51% (LLaMA-MoE) 및 0.33% (Qwen-MoE)의 성능 향상을 달성했습니다.

시사점, 한계점

시사점:
MoE 모델의 효율성 저하 문제를 해결하기 위한 새로운 관점(전문가 협업 및 전문화) 제시
C2R 전략을 통해 MoE 모델의 성능 및 실행 시간 향상
과도한 전문가 협업으로 인한 통신 오버헤드 문제 해결 방안 제시
LLaMA-MoE 및 Qwen-MoE 모델에서의 실질적인 성능 개선 확인
한계점:
제안된 C2R 전략의 일반성 및 다른 MoE 모델에 대한 적용 가능성에 대한 추가 연구 필요
특정 모델 및 벤치마크에 국한된 실험 결과, 다양한 모델 및 벤치마크에 대한 추가 실험 필요
C2R 전략의 구현 복잡도 및 오버헤드에 대한 추가 분석 필요
👍