BigMac: A Communication-Efficient Mixture-of-Experts Model Structure for Fast Training and Inference
Created by
Haebom
Category
Empty
저자
Zewen Jin, Shengnan Wang, Jiaan Zhu, Hongrui Zhan, Youhui Bai, Lin Zhang, Zhenyu Ming, Cheng Li
개요
본 논문은 Mixture-of-Experts (MoE) 구조를 가진 대규모 언어 모델의 계산 효율을 향상시키는 새로운 구조인 BigMac을 제안합니다. 기존의 fine-grained MoE는 All-to-All 통신으로 인한 병목 현상이 존재하는데, BigMac은 communicate-descend-ascend-communicate (CDAC) 방식 대신 descend-communicate-communicate-ascend (DCCA) 방식을 사용하여 저차원에서 통신을 수행함으로써 이 문제를 해결합니다. 전문가의 입구와 출구에 내림차순 및 오름차순 투영을 추가하여 이를 가능하게 합니다. 실험 결과, BigMac은 기존 fine-grained MoE와 비교하여 동등하거나 더 나은 성능을 보이며, 학습 시간은 최대 3.09배 단축하고 추론 처리량은 최대 3.11배 증가시킴을 보였습니다.
시사점, 한계점
•
시사점:
◦
MoE 구조의 계산 효율을 획기적으로 향상시키는 새로운 DCCA 방식 제시.
◦
기존 fine-grained MoE보다 낮은 지연 시간과 높은 처리량 달성.
◦
Megatron, Tutel, DeepSpeed-Inference 등 최신 AI 컴퓨팅 프레임워크에서 성능 향상 확인.
◦
동일한 전문가 수와 매개변수 수를 가지면서 기존 fine-grained MoE와 비슷하거나 더 나은 모델 성능 달성.