본 논문은 추론 능력을 갖춘 LLM의 사용이 증가함에 따라, 낮은 지연 시간과 높은 처리량을 달성하기 위한 LLM 추론 작업의 효율적인 스케줄링의 중요성을 강조합니다. 기존의 FCFS 방식이 HOL 블로킹으로 인해 겪는 문제점을 해결하기 위해, 본 논문은 pairwise ranking with margin ranking loss를 통해 SJF 스케줄링을 근사하는 prompt-aware LLM 작업 스케줄러인 PARS를 소개합니다. PARS는 중요한 스케줄링 결정에 초점을 맞추고, 최첨단 LLM 서비스 시스템인 vLLM에 매끄럽게 통합됩니다. 응답 길이를 기반으로 작업 순서를 효과적으로 예측하여 최소한의 오버헤드로 지연 시간을 줄입니다. 여러 LLM 및 실제 추론 데이터 세트에 대한 광범위한 실험을 통해, PARS가 추론 워크로드를 포함한 성능을 크게 향상시킴을 보였습니다. 또한, 교차 모델 평가를 통해 설계의 일반화 능력을 입증하여, 다른 LLM에서 훈련된 예측기를 사용하더라도 효과적인 스케줄링이 가능함을 보여줍니다.