본 논문은 오프라인 강화학습(RL)을 이용한 추천 시스템에서 보상 모델의 정확성과 모델 불확실성 문제를 해결하기 위해 새로운 모델 기반 보상 조정 방법인 ROLeR을 제안합니다. 기존 모델 기반 오프라인 RL 추천 시스템은 오프라인 로그 데이터와 실제 온라인 데이터 간의 차이로 인해 보상 모델 추정 및 불확실성 추정의 정확도가 낮다는 한계를 가지고 있습니다. ROLeR은 비모수적 보상 조정 방법과 추천 시스템에 적합한 유연한 불확실성 페널티를 설계하여 이러한 문제를 해결합니다. 네 개의 벤치마크 데이터셋에 대한 실험 결과, ROLeR은 기존 방법들보다 우수한 성능을 달성함을 보여줍니다. 소스 코드는 GitHub에서 공개됩니다.