Sign In

Plan Then Retrieve: Reinforcement Learning-Guided Complex Reasoning over Knowledge Graphs

Created by
  • Haebom
Category
Empty

저자

Yanlin Song, Ben Liu, Victor Gutierrez-Basulto, Zhiwei Hu, Qianqian Xie, Min Peng, Sophia Ananiadou, Jeff Z. Pan

개요

Knowledge Graph Question Answering (KGQA) 분야에서 대규모 언어 모델 (LLMs)의 활용에도 불구하고, 복잡한 상황에서 KG에 내재된 풍부한 지식과 LLMs의 추론 능력을 충분히 활용하지 못하는 문제점을 해결하고자 함. 불완전한 지식 조건 하에서 LLMs가 KG 및 웹 소스를 넘나들며 자율적인 계획 수립과 적응형 검색 일정을 수행할 수 있도록 하는 'plan-KGsearch-and-Websearch-during-think' 패러다임을 갖춘 Graph-RFT라는 새로운 2단계 강화 미세 조정 KGQA 프레임워크를 제안.

시사점, 한계점

Graph-RFT는 chain-of-thought 미세 조정을 통해 구조화된 추론을 활성화하고 GRPO 콜드 스타트 문제를 해결.
계획-검색 안내 강화 학습 프로세스를 통해 명시적 계획 및 검색 동작을 통합하고, 다중 보상 설계를 통해 커버리지 인식 검색 일정 수립 가능.
Cartesian 기반 계획 모듈을 활용하여 복잡한 질문을 순서화된 하위 질문으로 분해하고, 논리적 표현식을 사용하여 도구 호출을 안내하여 전반적으로 일관된 다단계 추론 수행.
결과 및 검색 관련 신호를 결합한 다중 보상으로 추론 검색 프로세스를 최적화하여 모델이 KG와 웹 검색을 효과적으로 결합하는 방법을 학습하도록 지원.
논문의 한계점은 명시적으로 언급되지 않음.
👍