본 논문은 강화학습(RL)을 실세계 문제에 적용하는 어려움, 즉 환경과의 상호작용 불가능 및 보상 함수 설계의 어려움을 해결하기 위해 오프라인 환경에서 선호도 기반 강화학습을 제안합니다. 오프라인 RL 데이터셋과 학습된 환경 모델을 활용하여 시뮬레이션된 rollout에 대한 선호도 피드백을 얻고, 이를 통해 보상 함수를 학습합니다. 비관적인 접근 방식(out-of-distribution data에 대한)과 낙관적인 접근 방식(최적 정책에 대한 정보성 선호도 획득)을 결합하여 Sim-OPRL 알고리즘을 제시하며, 최적 정책의 범위를 얼마나 잘 커버하는지에 따라 샘플 복잡도에 대한 이론적 보장을 제공합니다. 다양한 환경에서의 실험 결과도 제시합니다.