본 논문은 강화 학습(RL)에서 보상 함수 설계의 어려움을 해결하기 위해, 사람의 개입이 필요한 RL 방법들의 효율성을 높이는 새로운 접근 방식인 Sub-optimal Data Pre-training (SDP)을 제안합니다. SDP는 저품질 데이터를 최소 환경 보상으로 의사 라벨링하여, 사람의 라벨링이나 선호도 없이 보상 모델을 사전 훈련합니다. 이를 통해 보상 모델이 저품질 전이에 낮은 보상을 할당하도록 학습을 시작하며, 시뮬레이션 및 실제 사람 교사를 이용한 실험에서 기존 방법들보다 성능을 향상시키는 결과를 보였습니다.