본 논문은 오프라인 강화학습(RL)에서 제한된 정적 데이터셋으로 최적의 정책을 학습하는 문제를 해결하기 위해, 간단하지만 효과적인 플러그 앤 플레이 사전학습 방법을 제안합니다. 공유 Q-네트워크 구조를 도입하여 다음 상태와 Q-값을 예측하고, 다음 상태를 예측하는 지도 학습 방식으로 사전 학습을 진행합니다. 다양한 오프라인 RL 방법과 함께 사전 학습된 Q-네트워크를 사용하여 실험을 진행한 결과, D4RL, Robomimic, V-D4RL 벤치마크에서 기존 오프라인 RL 방법들의 성능을 향상시켰음을 보여줍니다. 또한, 다양한 데이터 품질과 분포를 가진 D4RL 및 ExoRL 벤치마크에서 데이터 효율적인 오프라인 RL을 크게 향상시키며, 데이터셋의 10%만 사용하더라도 기존 알고리즘이 전체 데이터셋을 사용한 것보다 성능이 뛰어남을 보였습니다.