본 논문은 대규모 다중 모달 모델(LMMs)의 효율적인 운영 환경 구축에 대한 어려움을 해결하기 위해 시스템 분석과 새로운 서빙 시스템을 제안합니다. 두 가지 주요 LMM 아키텍처(디코더 전용, 크로스 어텐션)와 6개의 오픈소스 모델을 대상으로 시스템 분석을 수행하여 주요 시스템 설계에 대한 시사점을 도출했습니다. 또한 실제 운영 환경의 LMM 추론 추적을 분석하여 가변적이고 긴 꼬리를 가진 요청 분포와 버스트 트래픽 패턴과 같은 고유한 작업 특성을 밝혀냈습니다. 이러한 통찰력을 바탕으로, 단계별 독립적인 최적화 및 적응형 확장을 가능하게 하는 모듈식 LMM 서빙 시스템인 ModServe를 제안합니다. ModServe는 모달 인식 스케줄링 및 자동 확장을 통해 단계를 동적으로 재구성하고 버스트 트래픽을 처리하여 꼬리 지연 SLO를 충족하면서 비용을 최소화합니다. 128개 GPU 클러스터에서 실제 추적 데이터를 사용한 실험 결과, ModServe는 SLO를 충족하면서 처리량을 3.35.5배 향상시켰고(2541.3% 비용 절감), 더 높은 효율성을 달성했습니다.
시사점, 한계점
•
시사점:
◦
대규모 다중 모달 모델의 효율적인 서빙을 위한 시스템 설계에 대한 중요한 통찰력 제공.
◦
모듈식 아키텍처를 통한 단계별 최적화 및 적응형 확장 가능성 제시.
◦
모달 인식 스케줄링 및 자동 확장을 통한 버스트 트래픽 효율적 처리 및 비용 절감 가능성 확인.