본 논문은 조합 최적화를 위한 동적 계획법 기반 상태 공간 탐색 패러다임인 DIDP(Domain-Independent Dynamic Programming)에 강화학습(RL)을 적용하여 탐색을 위한 휴리스틱 함수를 얻는 방법을 제안합니다. 기존 DIDP는 사용자 정의 이중 경계를 사용하여 탐색을 안내하지만, 본 논문에서는 Deep Q-Networks를 사용한 값 기반 안내와 Proximal Policy Optimization을 사용한 정책 기반 안내라는 두 가지 RL 기반 안내 방식을 개발합니다. 실험 결과, RL 기반 안내는 동일한 노드 확장 수를 가진 표준 DIDP 및 문제 특정 탐욕적 휴리스틱보다 성능이 훨씬 우수하며, 노드 평가 시간이 더 오래 걸리더라도 네 개의 벤치마크 도메인 중 세 개에서 표준 DIDP보다 더 나은 실행 시간 성능을 달성합니다.