본 논문은 대규모 언어 모델(LLM) 추론의 속도를 높이는 기법인 추측적 디코딩에서의 요청 스케줄링 문제를 해결하기 위해 새로운 알고리즘인 LAPS-SD(Least-Attained/Perceived-Service for Speculative Decoding)를 제안합니다. 기존의 추론 요청 실행 시간 예측 방식은 출력 길이에만 의존하여 부정확하다는 점을 지적하며, 출력 길이와 토큰 수용률을 모두 고려하는 LAPS-SD 알고리즘을 제시합니다. LAPS-SD는 토큰 수용률의 동적 변화에 따라 우선순위 큐를 관리하고, 요청 실행 선점을 허용하여 평균 추론 지연 시간을 최소화합니다. 실험 결과, LAPS-SD는 기존 최첨단 스케줄링 방법에 비해 추론 지연 시간을 약 39% 단축시키는 것으로 나타났습니다.