Sign In

BigMac: A Communication-Efficient Mixture-of-Experts Model Structure for Fast Training and Inference

Created by
  • Haebom
Category
Empty

저자

Zewen Jin, Shengnan Wang, Jiaan Zhu, Hongrui Zhan, Youhui Bai, Lin Zhang, Zhenyu Ming, Cheng Li

개요

본 논문은 Mixture-of-Experts (MoE) 구조를 가진 대규모 언어 모델의 계산 효율을 향상시키는 새로운 구조인 BigMac을 제안합니다. 기존의 fine-grained MoE는 All-to-All 통신으로 인한 병목 현상이 존재하는데, BigMac은 communicate-descend-ascend-communicate (CDAC) 방식 대신 descend-communicate-communicate-ascend (DCCA) 방식을 사용하여 저차원에서 통신을 수행함으로써 이 문제를 해결합니다. 전문가의 입구와 출구에 내림차순 및 오름차순 투영을 추가하여 이를 가능하게 합니다. 실험 결과, BigMac은 기존 fine-grained MoE와 비교하여 동등하거나 더 나은 성능을 보이며, 학습 시간은 최대 3.09배 단축하고 추론 처리량은 최대 3.11배 증가시킴을 보였습니다.

시사점, 한계점

시사점:
MoE 구조의 계산 효율을 획기적으로 향상시키는 새로운 DCCA 방식 제시.
기존 fine-grained MoE보다 낮은 지연 시간과 높은 처리량 달성.
Megatron, Tutel, DeepSpeed-Inference 등 최신 AI 컴퓨팅 프레임워크에서 성능 향상 확인.
동일한 전문가 수와 매개변수 수를 가지면서 기존 fine-grained MoE와 비슷하거나 더 나은 모델 성능 달성.
한계점:
제안된 BigMac 구조의 일반화 성능에 대한 추가적인 연구 필요.
다양한 크기와 유형의 LLM에 대한 BigMac의 적용성에 대한 추가적인 실험 필요.
DCCA 방식의 설계가 특정 하드웨어 아키텍처에 최적화되어 있을 가능성 존재.
👍