본 논문은 강화학습에서 보상 빈도가 과업 난이도의 신뢰할 만한 척도라는 일반적인 가정을 재검토합니다. 기존 정책 학습 방법의 효과를 저해하는 구조적 문제를 규명하고 공식화하는데, 이는 필수적인 하위 목표가 직접적인 보상을 제공하지 않는 경우 발생합니다. 이러한 설정을 성공에 중요한 전이가 보상되지 않는 제로 인센티브 역학으로 특징짓습니다. 최첨단 심층 하위 목표 기반 알고리즘이 이러한 역학을 활용하지 못하고 학습 성능이 하위 목표 달성과 최종 보상 간의 시간적 근접성에 매우 민감함을 보여줍니다. 이러한 결과는 현재 접근 방식의 근본적인 한계를 드러내며 즉각적인 인센티브에 의존하지 않고 잠재적인 과업 구조를 추론할 수 있는 메커니즘의 필요성을 지적합니다.