Speculative MoE: Communication Efficient Parallel MoE Inference with Speculative Token and Expert Pre-scheduling
Created by
Haebom
Category
Empty
저자
Yan Li, Pengfei Zheng, Shuang Chen, Zewei Xu, Yuanhao Lai, Yunfei Du, Zhengang Wang
개요
본 논문은 Mixture of Experts (MoE) 기반 대규모 언어 모델(LLM)의 확장성 있는 추론을 위한 효율적인 병렬 추론 기법인 Speculative MoE를 제안합니다. 기존의 DeepSpeed-MoE와 같은 MoE 추론 프레임워크는 Expert Parallelism(EP)에서 발생하는 높은 통신 오버헤드로 인해 성능 저하를 겪습니다. Speculative MoE는 예측적인 토큰 셔플링과 예측적인 전문가 그룹화라는 두 가지 기법을 통해 EP의 통신량을 줄여 이러한 문제를 해결합니다. DeepSpeed-MoE 뿐만 아니라 SGLang과 같은 다른 MoE 추론 엔진에도 적용 가능하며, 빠른 균일 및 느린 비균일 상호 연결 환경에서 모두 성능 향상을 보입니다.
시사점, 한계점
•
시사점:
◦
MoE 기반 LLM의 추론 성능을 크게 향상시킬 수 있는 새로운 기법을 제시합니다.
◦
빠른 균일 및 느린 비균일 상호 연결 환경 모두에서 효과적임을 실험적으로 검증합니다.
◦
DeepSpeed-MoE 뿐 아니라 다른 MoE 추론 엔진에도 적용 가능성을 보여줍니다.
◦
Expert Parallelism의 통신 오버헤드 감소를 통해 MoE 기반 LLM의 실제 배포 가능성을 높입니다.
•
한계점:
◦
Speculative MoE의 예측 정확도에 따라 성능 향상 정도가 달라질 수 있습니다. 예측 실패 시 성능 저하 가능성 존재.