GEM: GPU-Variability-Aware Expert to GPU Mapping for MoE Systems

작성자

Haebom

카테고리

Empty

저자

Sourish Wawdhane, Avinash Kumar, Poulami Das

💡 개요

본 논문은 Mixture-of-Experts (MoE) 시스템에서 GPU 간 성능 불균형으로 인한 병목 현상을 해결하기 위한 전문가(expert) 할당 기법인 GEM을 제안한다. GEM은 GPU의 성능 변동성을 고려하여, 자주 사용되는 전문가와 간헐적으로 함께 사용되는 전문가를 분산시키고 느린 GPU에 배치되는 것을 방지함으로써 레이어 처리 완료 시간을 균등하게 맞춘다. 이를 통해 평균 7.9%, 최대 16.5%의 종단 간 지연 시간 감소를 달성했다.

🔑 시사점 및 한계

•

MoE 모델의 효율적인 서빙을 위해서는 GPU의 성능 변동성을 고려한 전문가 할당 전략이 중요함을 시사한다.

•

전문가를 '일관적인(consistent)' 전문가와 '시간적인(temporal)' 전문가로 분류하여 분산 배치하는 새로운 접근 방식을 제시한다.

•

제안된 GEM 기법은 실제 실험에서 상당한 성능 향상을 보여주었으나, 모든 종류의 MoE 모델 및 하드웨어 구성에 대해 최적의 성능을 보장하는지는 추가 검증이 필요하다.

PDF 보기

Made with Slashpage