다중 홉 질의 응답 (MHQA) 작업에서, Chain of Thought (CoT)는 대규모 언어 모델 (LLMs)을 다단계 추론으로 안내하여 생성 품질을 향상시키고, 지식 그래프 (KGs)는 의미론적 매칭을 통해 환각을 줄입니다. Outcome Reward Models (ORMs)은 최종 답변 생성 후 피드백을 제공하지만, 다단계 추론 과정을 평가하는 데 실패합니다. 기존 Process Reward Models (PRMs)은 추론 과정을 평가하지만, 비용이 많이 드는 사람 주석 또는 롤아웃 생성이 필요합니다. Implicit PRM은 결과 신호만으로 훈련되고 명시적인 주석 없이 보상 매개변수를 통해 단계별 보상을 도출하므로 MHQA 작업에서 다단계 추론에 더 적합합니다. 그러나 기존 implicit PRM은 일반 텍스트 시나리오에서만 연구되었습니다. MHQA 작업에 적용할 때 KGs의 그래프 구조 제약을 처리하고 CoT와 KG 경로 간의 잠재적 불일치를 포착할 수 없습니다. 이러한 한계를 해결하기 위해 DPRM (Dual Implicit Process Reward Model)을 제안합니다. DPRM은 MHQA 작업에서 CoT 및 KG 추론을 위해 두 개의 implicit PRM을 훈련합니다. KG-PRM 및 CoT-PRM이라는 두 PRM은 추가적인 명시적 주석 없이 보상 매개변수를 통해 결과 신호로부터 단계별 보상을 도출합니다. 그 중 KG-PRM은 선호 쌍을 사용하여 KGs로부터 구조적 제약을 학습합니다. DPRM은 또한 CoT와 KG 추론 단계 간의 일관성 제약을 도입하여 두 PRM이 서로를 검증하고 추론 경로를 공동으로 최적화하도록 합니다. 우리는 또한 과정 보상의 유도에 대한 이론적 시연을 제공합니다. 실험 결과는 제안하는 방법이 여러 데이터 세트에서 13개의 기준선을 능가하며 Hit@1에서 최대 16.6% 향상을 보임을 보여줍니다.