계층적 강화학습(HRL) 에이전트는 오류 발생 가능성이 높은 거리 측정 방식에 의존하기 때문에 장기적인 시각적 계획에 어려움을 겪는다. 본 논문에서는 연속적인 거리 추정치 대신 이산적인 도달 가능성 확인을 사용하여 하위 목표의 실행 가능성을 평가하는 이산적 계층적 계획(DHP) 방법을 제안한다. DHP는 새로운 이점 추정 전략을 사용하여 장기 목표를 더 단순한 하위 작업 시퀀스로 분해함으로써 트리 구조 계획을 재귀적으로 구성하는데, 이 전략은 본질적으로 더 짧은 계획에 보상을 제공하고 훈련 깊이를 넘어 일반화된다. 또한 데이터 효율성 문제를 해결하기 위해 전문가 데이터 없이 계획 모듈에 대한 목표 지향적인 훈련 예제를 생성하는 탐색 전략을 도입한다. 25개 방 내비게이션 환경에서의 실험 결과, 성공률 100%(기준선 82% 대비)와 평균 에피소드 길이 73단계(기준선 158단계 대비)를 달성했다. 또한, 이 방법은 모멘텀 기반 제어 작업으로 일반화되며 재계획에 로그 N 단계만 필요하다. 이론적 분석과 ablation 실험을 통해 설계 선택의 타당성을 검증했다.