Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving

Created by
  • Haebom

저자

Shan Yu, Jiarong Xing, Yifan Qiao, Mingyuan Ma, Yangmin Li, Yang Wang, Shuo Yang, Zhiqiang Xie, Shiyi Cao, Ke Bao, Ion Stoica, Harry Xu, Ying Sheng

개요

본 논문은 다수의 대규모 언어 모델(LLM)을 제공하는 데 드는 높은 비용을 줄이기 위한 시스템인 Prism을 제시합니다. 여러 LLM을 제공하는 작업의 고유한 작업 패턴은 GPU 공유를 통한 활용도 향상의 기회와 과제를 제시합니다. 기존 GPU 공유 시스템은 런타임에 자원 할당 및 공유 정책을 조정하는 기능이 부족하여 동적으로 변화하는 작업량에서 지연 시간 서비스 수준 목표(SLO)를 충족하는 데 비효율적입니다. Prism은 모델 간의 유연한 GPU 메모리 공유에 필수적인 크로스-모델 메모리 조정 기능 부족이라는 기존 시스템의 주요 한계를 해결합니다. 온디맨드 메모리 할당과 두 가지 수준의 스케줄링 정책을 통해 동적 작업량 하에서 유연한 메모리 재분배 및 효율적인 메모리 사용을 달성합니다. 실제 추적 데이터를 이용한 평가 결과, Prism은 최첨단 시스템에 비해 2배 이상의 비용 절감과 3.3배 이상의 SLO 달성률을 보였습니다.

시사점, 한계점

시사점:
다수의 LLM을 효율적으로 제공하기 위한 새로운 시스템 아키텍처(Prism) 제시.
크로스-모델 메모리 조정을 통한 GPU 메모리 공유의 효율성 증대.
온디맨드 메모리 할당 및 두 가지 수준의 스케줄링 정책을 통한 동적 자원 관리.
실제 추적 데이터 기반 평가를 통해 비용 절감 및 SLO 달성률 향상을 검증.
한계점:
Prism 시스템의 실제 구현 및 확장성에 대한 추가적인 연구 필요.
다양한 유형의 LLM 및 작업량에 대한 일반화 가능성 검증 필요.
특정 하드웨어 환경에 대한 의존성 및 다른 환경으로의 이식성 평가 필요.
👍