오프라인 강화 학습은 양질의 데이터셋을 필요로 하지만, 이를 확보하기 어렵거나 오프라인 데이터를 기반으로 실제 환경에서 우수한 성능을 내는 정책을 학습시키는 것이 쉽지 않다. 본 논문은 데이터 증류를 활용하여 더 나은 데이터셋을 생성하고, 이를 통해 우수한 정책 모델을 학습하는 방법을 제안한다. 제안하는 방법은 전체 데이터셋으로 학습된 모델이나 백분위 행동 복제를 사용하여 학습된 모델과 유사한 성능을 달성하는 모델을 학습할 수 있는 데이터셋을 합성할 수 있음을 보여준다.