본 논문은 강화학습에서 여러 할인율을 가진 가치 추정을 사용하여 시간적 신용 할당 문제를 해결할 때, 액터가 동적으로 시간적 헤드를 라우팅하는 방식이 수치적 단축키로 작용하여 실제적인 제어 능력 향상으로 이어지지 않는다는 문제를 제기합니다. 특히, 미분 가능한 라우팅은 수치적으로 유리한 어드밴티지 헤드로 직접 기울기를 유도하는 '대리 목표 해킹'과, 짧은 시간 할인율 헤드가 쉬운 예측 표적으로 인해 과도한 라우팅 점유를 받는 '시간적 불확실성의 역설'을 진단합니다. 이를 해결하기 위해 액터는 긴 시간 할인율의 어드밴티지만 사용하여 업데이트하는 '타겟 디커플링' 방식을 제안하며, 이는 탐색 가능한 액터 측 라우팅 경로를 제거하고 최악의 시드 반환값을 개선하는 효과를 보였습니다.