Sign In

ExpertFlow: Adaptive Expert Scheduling and Memory Coordination for Efficient MoE Inference

Created by
  • Haebom
Category
Empty

저자

Zixu Shen, Kexin Chu, Yifan Zhang, Dawei Xiang, Runxin Wu, Wei Zhang

개요

본 논문은 대규모 언어 모델 확장의 주요 제약 사항인 GPU 메모리 용량 문제를 해결하기 위해, Mixture-of-Experts (MoE) 아키텍처를 위한 런타임 시스템인 ExpertFlow를 제안한다. ExpertFlow는 적응형 전문가 사전 인출 및 캐시 인식 라우팅을 결합하여, 빈번한 파라미터 전송으로 인한 지연 시간을 줄이고, 다양한 하드웨어 플랫폼 및 워크로드에 적응 가능한 크로스 레이어 예측 방식을 활용하여 견고성을 향상시킨다. ExpertFlow는 런타임 통계를 기반으로 전문가 활성화를 위한 예측 범위를 지속적으로 조정하고, 사전 게이팅 정보와 중간 계산 상태를 융합하는 하이브리드 크로스 레이어 예측 방식을 통해 캐시 미스를 줄이고 전문가 스왑인으로 인한 지연 시간을 제거한다.

시사점, 한계점

시사점:
MoE 아키텍처 기반의 대규모 언어 모델 추론 성능 향상 가능성 제시.
적응형 전문가 사전 인출 및 캐시 인식 라우팅을 통한 지연 시간 감소.
다양한 환경에 적응 가능한 하이브리드 크로스 레이어 예측 방식 제안.
모델 스톨 시간 획기적으로 감소 (0.1% 미만).
한계점:
구체적인 성능 향상 수치 및 비교 대상 모델에 대한 정보 부족.
ExpertFlow의 최적화 파라미터 설정에 대한 자세한 설명 부재.
다양한 MoE 모델 및 하드웨어 환경에서의 확장성 검증 필요.
잠재적인 오버헤드 (예: 런타임 통계 수집 및 처리)에 대한 고려 부족.
👍