본 논문은 대규모 언어 모델(LLM)의 빠른 순위 매기기 추론을 위한 강화 학습 기반의 추측적 디코딩 방법(Reinforcement Speculative Decoding)을 제안한다. 기존의 단일 토큰 디코딩이나 추측적 디코딩 방법의 한계(낮은 정확도, 지연 시간 문제, 목록 순위 정보 활용 부족)를 극복하기 위해, 제한된 예산 내에서 에이전트가 순위 시퀀스를 반복적으로 수정하는 상향식(up-to-down) 디코딩 방식을 제시한다. 강화 학습을 통해 최적의 다중 라운드 순위 수정 정책을 학습하고, 모든 항목에 대한 목록 순위 정보를 활용하여 목표 LLM을 더 잘 근사하도록 설계되었다. 이론적 강건성과 장점을 증명하고, 정보 검색(IR)과 추천 시스템(RS) 작업에 대한 실험을 통해 제안된 방법의 효과를 보여준다.