Sign In

Speculative MoE: Communication Efficient Parallel MoE Inference with Speculative Token and Expert Pre-scheduling

Created by
  • Haebom
Category
Empty

저자

Yan Li, Pengfei Zheng, Shuang Chen, Zewei Xu, Yunfei Du, Zhengang Wang

개요

본 논문은 대규모 언어 모델(LLM)의 확장성을 위한 핵심 기술인 MoE(Mixture of Experts)의 추론 효율 향상에 초점을 맞추고 있습니다. 기존의 최첨단 MoE 추론 프레임워크인 DeepSpeed-MoE는 3D 병렬 처리(EP, TP, DP)를 사용하지만, 토큰 활성화 라우팅을 위한 전송 과정에서 EP 병렬 처리의 통신 오버헤드가 병목 현상을 일으키는 문제점을 지적합니다. 이를 해결하기 위해, 본 논문에서는 예측적 MoE(Speculative MoE) 기법을 제안합니다. Speculative MoE는 예측적 토큰 셔플링과 예측적 전문가 그룹화라는 두 가지 예측적 병렬화 방식을 통해 토큰과 전문가의 라우팅 경로를 미리 예측하고 스케줄링하여 EP의 통신량을 줄임으로써 효율성을 향상시킵니다. DeepSpeed-MoE 뿐만 아니라 SGLang과 같은 다른 MoE 추론 엔진에도 적용 가능하며, 고속 동종 및 저속 이종 상호 연결 환경에서 모두 성능 향상을 보입니다.

시사점, 한계점

시사점:
MoE 기반 LLM의 추론 효율을 획기적으로 향상시키는 Speculative MoE 기법 제시.
DeepSpeed-MoE 및 SGLang 등 다양한 MoE 추론 프레임워크에 적용 가능성을 입증.
고속 동종 및 저속 이종 상호 연결 환경 모두에서 성능 개선 효과 확인.
EP 병렬 처리의 통신 오버헤드 감소를 통해 MoE 기반 LLM의 실제 배포 가능성 증대.
한계점:
예측 정확도에 따라 성능 향상 효과가 달라질 수 있음. 예측 오류 시 성능 저하 가능성 존재.
특정 하드웨어 및 네트워크 환경에 최적화된 결과일 가능성. 다른 환경에서는 성능 차이가 발생할 수 있음.
Speculative MoE의 구현 복잡도 증가 가능성.
본 논문에서 제시된 실험 결과의 일반화 가능성에 대한 추가적인 검증 필요.
👍