본 논문은 심층 강화 학습(DRL)에서의 표본 비효율성 문제를 해결하기 위해 적대적 추정(Adversarial Estimates) 기법을 제안합니다. 희소하거나 지연된 보상을 갖는 환경에서 특히 어려운 표본 비효율성 문제를 완화하기 위해, 소량의 사람이 수집한 궤적(5분 분량)에서 잠재적 유사성 검색을 활용하여 학습을 향상시키는 접근 방식입니다. 피드백 기반 DRL 알고리즘에 적용하여 알고리즘의 수렴 속도를 향상시키는 결과를 보였으며, 매우 희소한 보상을 갖는 극단적인 시나리오에서도 학습을 가능하게 할 수 있는 잠재력을 논의합니다.