본 논문은 오프라인 데모로부터 보상 함수를 직접 학습하는 새로운 방법을 제안합니다. 기존의 역강화학습(IRL)과 달리, 제안하는 방법은 학습자의 정책으로부터 보상 함수를 분리하여 두 요소 간의 일반적인 적대적 상호작용을 제거함으로써 더 안정적이고 효율적인 훈련 과정을 달성합니다. "SR-Reward"라 명명된 보상 함수는 후속 표현(SR)을 활용하여 데모 정책과 전이 역학에 따른 예상되는 미래 상태 방문을 기반으로 상태를 인코딩합니다. 벨만 방정식을 이용하여 SR-Reward는 기존 훈련 파이프라인을 변경하지 않고 대부분의 강화학습(RL) 알고리즘과 동시에 학습될 수 있습니다. 또한, 분포 외 데이터에 대한 보상을 줄임으로써 과대추정 오류를 완화하는 음성 샘플링 전략을 도입하여 강건성을 향상시킵니다. 이 전략은 학습된 보상을 사용하는 RL 알고리즘에 본질적으로 보수적인 편향을 도입합니다. D4RL 벤치마크에서 평가한 결과, 실제 보상에 접근할 수 있는 오프라인 RL 알고리즘 및 행동 복제와 같은 모방 학습(IL) 기법과 비교하여 경쟁력 있는 결과를 달성했습니다. 데이터 크기와 품질에 대한 추가 실험을 통해 SR-Reward가 실제 보상의 대리 지표로서 갖는 장점과 한계를 밝혔습니다.