Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ModServe: Scalable and Resource-Efficient Large Multimodal Model Serving

Created by
  • Haebom
Category
Empty

저자

Haoran Qiu, Anish Biswas, Zihan Zhao, Jayashree Mohan, Alind Khare, Esha Choukse, Inigo Goiri, Zeyu Zhang, Haiying Shen, Chetan Bansal, Ramachandran Ramjee, Rodrigo Fonseca

개요

본 논문은 대규모 다중 모달 모델(LMMs)의 효율적인 운영 환경 구축에 대한 어려움을 해결하기 위해 시스템 분석과 새로운 서빙 시스템을 제안합니다. 두 가지 주요 LMM 아키텍처(디코더 전용, 크로스 어텐션)와 6개의 오픈소스 모델을 대상으로 시스템 분석을 수행하여 주요 시스템 설계에 대한 시사점을 도출했습니다. 또한 실제 운영 환경의 LMM 추론 추적을 분석하여 가변적이고 긴 꼬리를 가진 요청 분포와 버스트 트래픽 패턴과 같은 고유한 작업 특성을 밝혀냈습니다. 이러한 통찰력을 바탕으로, 단계별 독립적인 최적화 및 적응형 확장을 가능하게 하는 모듈식 LMM 서빙 시스템인 ModServe를 제안합니다. ModServe는 모달 인식 스케줄링 및 자동 확장을 통해 단계를 동적으로 재구성하고 버스트 트래픽을 처리하여 꼬리 지연 SLO를 충족하면서 비용을 최소화합니다. 128개 GPU 클러스터에서 실제 추적 데이터를 사용한 실험 결과, ModServe는 SLO를 충족하면서 처리량을 3.35.5배 향상시켰고(2541.3% 비용 절감), 더 높은 효율성을 달성했습니다.

시사점, 한계점

시사점:
대규모 다중 모달 모델의 효율적인 서빙을 위한 시스템 설계에 대한 중요한 통찰력 제공.
모듈식 아키텍처를 통한 단계별 최적화 및 적응형 확장 가능성 제시.
모달 인식 스케줄링 및 자동 확장을 통한 버스트 트래픽 효율적 처리 및 비용 절감 가능성 확인.
실제 운영 환경 데이터 기반의 실험 결과를 통해 ModServe의 우수성 검증.
한계점:
분석 대상 모델의 수가 제한적일 수 있음. (6개의 오픈소스 모델)
ModServe의 성능 평가가 특정 클러스터 환경(128 GPU)에 국한될 수 있음.
다양한 종류의 LMM 아키텍처와 작업 부하에 대한 일반화 가능성에 대한 추가 연구 필요.
👍