본 논문은 머신러닝 예측(예: 예상 서비스 시간)을 큐잉 시스템에 적용하여 시스템 성능을 향상시키는 방법에 대한 연구를 검토한다. 특히, 예측 서비스 시간을 갖는 큐에서 작업 시간을 최소화하는 것을 목표로 하는 최근 연구들을 살펴보고, 예측의 효과와 큐 성능에 대한 미해결 문제들을 제시한다. 또한, 예측을 스케줄링에 적용하는 중요한 실제 사례로서 대규모 언어 모델(LLM) 시스템을 고려한다. LLM 시스템의 추론 요청(작업)은 변동하는 추론 시간, 키-값(KV) 저장소 메모리 제한에 의해 제약받는 동적 메모리 사용량, 성능에 다르게 영향을 미치는 여러 가지 선점 방법 등 고유한 복잡성을 지닌다. 논문은 LLM 시스템의 스케줄링에 대한 중요한 측면을 배경으로 설명하고, 이로 인해 발생하는 새로운 모델과 미해결 문제들을 소개하며, 큐잉 이론의 통찰력과 분석을 LLM 시스템의 스케줄링에 적용할 수 있는 중요한 기회가 있다고 주장한다.