본 논문은 희소 보상을 가진 온라인 강화 학습(RL) 문제를 해결하기 위해 데이터 기반 보상 조정 기법을 제안합니다. 희소 보상으로 인해 목표 상태에 대한 피드백이 부족하고, 목표 달성을 위한 온라인 에이전트의 학습을 돕는 전문가 오프라인 데이터 또한 부족한 문제를 해결하고자 합니다. 이를 위해 다양한 비디오 데이터(인터넷 녹화, 오프-태스크 데모, 태스크 실패, 무지향적 환경 상호작용 등)로부터 최적 목표 조건부 가치 함수를 학습하여 보상에 통합하는 방법을 제시합니다. 의도 조건부 가치 함수를 사용하여 다양한 비디오 데이터로부터 학습하고, 이를 보상에 통합함으로써 온라인 RL 에이전트를 효과적으로 안내합니다. 실험 결과, 다양한 데이터 소스에서 효과적으로 작동하며, 사람의 비디오 사전 훈련으로부터 양의 전이를 보이고, 보지 못한 목표에도 일반화되며, 데이터셋 크기에 따라 확장성을 보이는 것을 확인하였습니다.