Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ModServe: Modality- and Stage-Aware Resource Disaggregation for Scalable Multimodal Model Serving

Created by
  • Haebom

저자

Haoran Qiu, Anish Biswas, Zihan Zhao, Jayashree Mohan, Alind Khare, Esha Choukse, Inigo Goiri, Zeyu Zhang, Haiying Shen, Chetan Bansal, Ramachandran Ramjee, Rodrigo Fonseca

개요

본 논문은 대규모 멀티모달 모델(LMM)의 효율적인 서빙에 대한 시스템 분석을 제시한다. 두 가지 주요 LMM 아키텍처(decoder-only, cross-attention)를 여섯 개의 오픈 소스 모델에 대해 분석하여 시스템 설계 시사점을 도출하고, 생산 환경에서의 LMM 추론 트레이스를 분석하여 독특한 워크로드 특성을 밝혀냈다. 이러한 분석을 바탕으로, 모듈식 LMM 서빙 시스템인 ModServe를 제안한다. ModServe는 독립적인 최적화 및 적응형 스케일링을 위해 단계를 분리하고, 모달리티 인식 스케줄링 및 자동 스케일링을 통해 버스티 트래픽을 처리하여 비용을 최소화하면서 꼬리 지연 시간 SLO를 충족한다. ModServe는 128-GPU 클러스터에서 생산 트레이스를 사용하여 SLO를 충족하면서 3.3-5.5배 높은 처리량을 달성하여 25-41.3%의 비용 절감을 이룬다.

시사점, 한계점

시사점:
LMM 아키텍처에 따른 시스템 설계 시사점 제시
생산 환경 LMM 워크로드 특성 분석 (가변적이고, 헤비테일 요청 분포, 버스티 트래픽 패턴)
ModServe: 모듈식 LMM 서빙 시스템 제안 (단계 분리, 모달리티 인식 스케줄링, 자동 스케일링)
ModServe는 높은 처리량 및 비용 절감 달성 (SLO 충족)
한계점:
특정 LMM 아키텍처 및 모델에 대한 분석 (다른 모델 및 아키텍처에 대한 일반화 필요)
128-GPU 클러스터 환경에서의 성능 평가 (더 큰 규모의 환경에서의 확장성 평가 필요)
생산 트레이스 기반 분석 (다양한 워크로드 시나리오에 대한 검증 필요)
👍