본 논문은 대규모 언어 모델(LLM)의 효율적인 서빙 전략에 대한 필요성을 다루며, 특히 Time To First Token (TTFT) 및 Time Between Tokens (TBT)과 같은 서비스 수준 목표(SLO)를 동시에 충족하는 LLM 서빙 시스템인 Ascendra를 제시합니다. Ascendra는 요청의 긴급성이 마감 시간에 가까워짐에 따라 변화한다는 점에 착안하여, GPU 리소스를 저우선순위 및 고우선순위 인스턴스로 분할합니다. 저우선순위 인스턴스는 처리량을 극대화하지만 요청 지연의 위험이 있으며, 고우선순위 인스턴스는 저지연 실행에 최적화되어 마감 시간에 임박한 긴급 요청을 처리합니다. 성능 모델을 사용하여 SLO를 충족하지 못할 위험이 있는 요청을 예측하고 고우선순위 인스턴스로 사전에 오프로드하여 이 문제를 해결합니다. 실험 결과, Ascendra는 vLLM 및 Sarathi-Serve와 비교하여 시스템 처리량을 최대 1.7배 향상시키는 동시에 TTFT 및 TBT SLO를 모두 충족하는 것으로 나타났습니다.