본 논문은 조합 최적화를 위한 동적 계획법 기반 상태 공간 탐색 패러다임인 도메인 독립적 동적 계획법(DIDP)에 강화 학습(RL)을 적용하여 탐색을 안내하는 휴리스틱 함수를 얻는 방법을 제안합니다. Deep Q-Networks를 사용한 값 기반 안내와 Proximal Policy Optimization을 사용한 정책 기반 안내라는 두 가지 RL 기반 안내 방식을 개발하여, 표준 DIDP 및 문제 특정 탐욕적 휴리스틱보다 성능이 뛰어남을 실험적으로 보여줍니다. 노드 평가 시간이 더 오래 걸리더라도, 네 개의 벤치마크 도메인 중 세 개에서 표준 DIDP보다 더 나은 실행 시간 성능을 달성합니다.