Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving
Created by
Haebom
저자
Shan Yu, Jiarong Xing, Yifan Qiao, Mingyuan Ma, Yangmin Li, Yang Wang, Shuo Yang, Zhiqiang Xie, Shiyi Cao, Ke Bao, Ion Stoica, Harry Xu, Ying Sheng
개요
본 논문은 다수의 대규모 언어 모델(LLM)을 제공하는 데 드는 높은 비용을 줄이기 위한 시스템인 Prism을 제시합니다. 여러 LLM을 제공하는 작업의 고유한 작업 패턴은 GPU 공유를 통한 활용도 향상의 기회와 과제를 제시합니다. 기존 GPU 공유 시스템은 런타임에 자원 할당 및 공유 정책을 조정하는 기능이 부족하여 동적으로 변화하는 작업량에서 지연 시간 서비스 수준 목표(SLO)를 충족하는 데 비효율적입니다. Prism은 모델 간의 유연한 GPU 메모리 공유에 필수적인 크로스-모델 메모리 조정 기능 부족이라는 기존 시스템의 주요 한계를 해결합니다. 온디맨드 메모리 할당과 두 가지 수준의 스케줄링 정책을 통해 동적 작업량 하에서 유연한 메모리 재분배 및 효율적인 메모리 사용을 달성합니다. 실제 추적 데이터를 이용한 평가 결과, Prism은 최첨단 시스템에 비해 2배 이상의 비용 절감과 3.3배 이상의 SLO 달성률을 보였습니다.