많은 순차적 의사 결정 문제는 최단 경로 문제로 공식화될 수 있으며, 목표는 주어진 시작 상태에서 목표 상태에 도달하는 것이다. 휴리스틱 탐색은 이러한 문제를 해결하기 위한 표준 접근 방식으로, 주어진 상태에서 목표까지의 비용을 추정하기 위해 휴리스틱 함수에 의존한다. 최근 접근 방식은 딥 근사 가치 반복을 적용하여 휴리스틱을 학습하기 위해 강화 학습을 활용한다. 이 연구는 단일 단계 Bellman 업데이트에 의존하는데, 여기서 상태의 휴리스틱은 최상의 이웃과 해당 에지 비용을 기반으로 업데이트된다. 이 연구는 제한된 지평 탐색을 수행하고, 에지 비용과 프론티어 상태의 휴리스틱 값을 모두 통합하여 각 상태의 휴리스틱을 탐색 프론티어까지의 최단 경로를 기반으로 업데이트함으로써, 상태 샘플링과 휴리스틱 업데이트를 모두 향상시키는 일반화된 접근 방식을 제안한다.