강화학습(RL)에서 에피소드형 과제는 희소한 보상 신호와 고차원 상태 공간으로 인해 효율적인 학습을 방해하는 어려움을 제기합니다. 또한, 이러한 과제는 종종 과제 완료를 방지하지만 에이전트가 반복적인 오류를 피하도록 안내하는 명시적인 음의 보상을 제공하지 않는 숨겨진 "함정 상태"를 특징으로 합니다. 이러한 문제를 해결하기 위해, 본 논문은 성공적인 시범과 실패한 시범 모두를 활용하는 역강화학습(IRL) 프레임워크인 시간 가중 대조 보상 학습(TW-CRL)을 제안합니다. 시간 정보를 통합함으로써, TW-CRL은 성공 또는 실패와 관련된 중요한 상태를 식별하는 밀집 보상 함수를 학습합니다. 이러한 접근 방식은 에이전트가 함정 상태를 피할 수 있게 할 뿐만 아니라 전문가 궤적의 단순한 모방을 넘어 의미 있는 탐색을 장려합니다. 탐색 과제와 로봇 조작 벤치마크에 대한 실험적 평가는 TW-CRL이 최첨단 방법을 능가하여 효율성과 강건성을 향상시킨다는 것을 보여줍니다.