Sign In

Rewarding Graph Reasoning Process makes LLMs more Generalized Reasoners

Created by
  • Haebom
Category
Empty

저자

Miao Peng, Nuo Chen, Zongrui Suo, Jia Li

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 프로세스 보상 모델(PRM)을 그래프 추론 문제에 적용하는 연구를 제시합니다. 기존 PRM의 높은 수동 레이블링 비용 문제를 해결하기 위해, 작업 지향 경로 및 몬테카를로 트리 탐색(MCTS)을 이용하여 상세한 단계별 레이블을 생성하는 GraphSILO라는 대규모 그래프 추론 데이터셋을 구축했습니다. 이를 기반으로 그래프 추론 문제에 특화된 GraphPRM을 개발하여 추론 시간 확장 및 직접 선호도 최적화(DPO)를 통한 강화 학습 설정에서 평가했습니다. 실험 결과, GraphPRM은 13가지 그래프 추론 작업에서 Qwen2.5-7B 모델의 성능을 9% 향상시키는 등 다양한 그래프 추론 데이터셋과 수학 문제 해결과 같은 다른 추론 영역으로의 전이성을 보여주었습니다. 이는 PRM이 다양한 영역에서 추론 능력 향상에 기여할 수 있음을 시사합니다.

시사점, 한계점

시사점:
그래프 추론 문제에 PRM을 적용하여 LLM의 추론 능력을 향상시킬 수 있음을 보여줌.
자동화된 데이터 생성 방법을 통해 대규모 고품질 그래프 추론 데이터셋을 구축 가능함을 제시.
GraphPRM의 우수한 성능과 다양한 영역으로의 전이성을 확인.
PRM 기반의 추론 능력 향상 연구의 새로운 가능성을 제시.
한계점:
GraphSILO 데이터셋의 생성 방식에 대한 자세한 설명 부족.
특정 LLM(Qwen2.5-7B)에 대한 결과 위주로, 다른 LLM에 대한 일반화 가능성에 대한 추가 연구 필요.
DPO 외 다른 강화 학습 방법과의 비교 연구 부족.
실제 복잡한 그래프 추론 문제에 대한 적용 및 성능 평가 부족.
👍