Sign In

Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models

Created by
  • Haebom
Category
Empty

저자

Keisuke Kamahori, Tian Tang, Yile Gu, Kan Zhu, Baris Kasikci

개요

본 논문은 Mixture-of-Experts (MoE) 아키텍처를 기반으로 하는 대규모 언어 모델(LLM)의 자원 제약 환경에서의 효율적인 추론을 위한 시스템, Fiddler를 제안합니다. 기존 시스템들이 CPU와 GPU 간 데이터 이동 오버헤드 문제나 CPU와 GPU의 특성 차이 고려 부족으로 어려움을 겪는 반면, Fiddler는 최적의 실행 전략을 결정하여 CPU와 GPU 자원을 전략적으로 활용합니다. 실험 결과, Fiddler는 단일 배치 추론, 긴 prefill 처리, beam search 추론 등 모든 시나리오에서 기존 최첨단 시스템보다 우수한 성능을 보였습니다. 단일 배치 추론에서 1.26배, 긴 prefill 처리에서 1.30배, beam search 추론에서 11.57배의 속도 향상을 달성했습니다. Fiddler의 코드는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
제한된 GPU 자원 환경에서 MoE 기반 LLM의 효율적인 추론을 위한 새로운 시스템 Fiddler 제시.
다양한 추론 시나리오(단일 배치, 긴 prefill, beam search)에서 기존 시스템보다 우수한 성능 달성.
CPU와 GPU 자원의 전략적 활용을 통한 성능 향상.
코드 공개를 통한 연구의 재현성 및 확장성 증대.
한계점:
특정 하드웨어 환경에서의 성능 평가 결과이므로, 다른 환경에서의 일반화 가능성에 대한 추가 연구 필요.
MoE 아키텍처에 특화된 시스템으로, 다른 LLM 아키텍처에 대한 적용 가능성 검토 필요.
실험 환경 및 비교 대상 시스템에 대한 보다 상세한 설명 필요.
👍