Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Ascendra: Dynamic Request Prioritization for Efficient LLM Serving

Created by
  • Haebom

저자

Azam Ikram, Xiang Li, Sameh Elnikety, Saurabh Bagchi

개요

본 논문은 대규모 언어 모델(LLM)의 효율적인 서빙 전략에 대한 필요성을 다루며, 특히 Time To First Token (TTFT) 및 Time Between Tokens (TBT)과 같은 서비스 수준 목표(SLO)를 동시에 충족하는 LLM 서빙 시스템인 Ascendra를 제시합니다. Ascendra는 요청의 긴급성이 마감 시간에 가까워짐에 따라 변화한다는 점에 착안하여, GPU 리소스를 저우선순위 및 고우선순위 인스턴스로 분할합니다. 저우선순위 인스턴스는 처리량을 극대화하지만 요청 지연의 위험이 있으며, 고우선순위 인스턴스는 저지연 실행에 최적화되어 마감 시간에 임박한 긴급 요청을 처리합니다. 성능 모델을 사용하여 SLO를 충족하지 못할 위험이 있는 요청을 예측하고 고우선순위 인스턴스로 사전에 오프로드하여 이 문제를 해결합니다. 실험 결과, Ascendra는 vLLM 및 Sarathi-Serve와 비교하여 시스템 처리량을 최대 1.7배 향상시키는 동시에 TTFT 및 TBT SLO를 모두 충족하는 것으로 나타났습니다.

시사점, 한계점

시사점:
LLM 서빙 시스템에서 TTFT와 TBT SLO를 동시에 만족시키는 새로운 아키텍처를 제시.
GPU 리소스의 효율적인 분할 및 관리를 통해 처리량과 지연 시간을 동시에 개선.
성능 모델 기반의 사전 예측을 통해 요청 지연 문제 해결.
기존 시스템(vLLM, Sarathi-Serve) 대비 최대 1.7배의 처리량 향상을 달성.
한계점:
성능 모델의 정확도에 따라 시스템 성능이 영향을 받을 수 있음.
고우선순위 인스턴스의 리소스 할당 전략에 대한 추가적인 연구 필요.
다양한 LLM 및 작업 부하에 대한 일반화 가능성에 대한 추가적인 검증 필요.
실제 운영 환경에서의 확장성 및 안정성에 대한 추가적인 평가 필요.
👍