본 논문은 보상 신호가 매우 드문 실세계 시나리오에서 효과적인 보상 함수를 학습하는 어려움을 해결하기 위해 제안된 방법을 제시합니다. 제안된 방법은 영 보상 전이를 포함한 모든 전이를 활용하여 보상 형성을 수행합니다. 특히, 반지도 학습(SSL) 기법과 새로운 데이터 증강 기법을 결합하여 영 보상 전이로부터 궤적 공간 표현을 학습하여 보상 형성의 효율성을 향상시킵니다. Atari 게임과 로봇 조작 실험 결과, 제안된 방법은 보상 추론에서 지도 학습 기반 방법들을 능가하며, 에이전트 점수를 높입니다. 특히 보상이 더욱 드문 환경에서는 기존 방법 대비 최대 두 배의 최고 점수를 달성합니다. 제안된 이중 엔트로피 데이터 증강 기법은 성능을 향상시켜 다른 증강 방법보다 15.8% 높은 최고 점수를 기록합니다.