Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DPRM: A Dual Implicit Process Reward Model in Multi-Hop Question Answering

Created by
  • Haebom
Category
Empty

저자

Xinyi Wang, Yiping Song, Zhiliang Tian, Bo Liu, Tingjin Luo, Minlie Huang

개요

다중 홉 질의 응답 (MHQA) 작업에서, Chain of Thought (CoT)는 대규모 언어 모델 (LLMs)을 다단계 추론으로 안내하여 생성 품질을 향상시키고, 지식 그래프 (KGs)는 의미론적 매칭을 통해 환각을 줄입니다. Outcome Reward Models (ORMs)은 최종 답변 생성 후 피드백을 제공하지만, 다단계 추론 과정을 평가하는 데 실패합니다. 기존 Process Reward Models (PRMs)은 추론 과정을 평가하지만, 비용이 많이 드는 사람 주석 또는 롤아웃 생성이 필요합니다. Implicit PRM은 결과 신호만으로 훈련되고 명시적인 주석 없이 보상 매개변수를 통해 단계별 보상을 도출하므로 MHQA 작업에서 다단계 추론에 더 적합합니다. 그러나 기존 implicit PRM은 일반 텍스트 시나리오에서만 연구되었습니다. MHQA 작업에 적용할 때 KGs의 그래프 구조 제약을 처리하고 CoT와 KG 경로 간의 잠재적 불일치를 포착할 수 없습니다. 이러한 한계를 해결하기 위해 DPRM (Dual Implicit Process Reward Model)을 제안합니다. DPRM은 MHQA 작업에서 CoT 및 KG 추론을 위해 두 개의 implicit PRM을 훈련합니다. KG-PRM 및 CoT-PRM이라는 두 PRM은 추가적인 명시적 주석 없이 보상 매개변수를 통해 결과 신호로부터 단계별 보상을 도출합니다. 그 중 KG-PRM은 선호 쌍을 사용하여 KGs로부터 구조적 제약을 학습합니다. DPRM은 또한 CoT와 KG 추론 단계 간의 일관성 제약을 도입하여 두 PRM이 서로를 검증하고 추론 경로를 공동으로 최적화하도록 합니다. 우리는 또한 과정 보상의 유도에 대한 이론적 시연을 제공합니다. 실험 결과는 제안하는 방법이 여러 데이터 세트에서 13개의 기준선을 능가하며 Hit@1에서 최대 16.6% 향상을 보임을 보여줍니다.

시사점, 한계점

MHQA 작업에서 CoT와 KG 추론을 결합하여 성능을 향상시키는 DPRM 제안.
명시적 주석 없이 결과 신호만으로 훈련되는 두 개의 implicit PRM (KG-PRM, CoT-PRM) 사용.
KG-PRM은 KGs의 구조적 제약을 학습하기 위해 선호 쌍을 사용.
CoT와 KG 추론 단계 간의 일관성 제약을 도입하여 두 PRM의 상호 검증 및 협력적 최적화.
다양한 데이터 세트에서 13개의 기준선을 능가하는 우수한 성능.
연구는 MHQA 작업에 초점을 맞추어져 있으며, 다른 유형의 문제에는 일반화되지 않을 수 있음.
implicit PRM의 성능은 보상 매개변수화에 의존하며, 이 과정의 설계가 중요할 수 있음.
이론적 시연이 제공되지만, 실제 응용에서의 복잡성을 완벽하게 설명하지 못할 수 있음.
👍