Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning

Created by
  • Haebom

저자

Xiaojun Guo, Ang Li, Yifei Wang, Stefanie Jegelka, Yisen Wang

개요

본 논문은 대규모 언어 모델(LLM)의 그래프 관련 작업 능력이 제한적이라는 점을 지적하며, 이를 개선하기 위한 새로운 접근법 G1을 제시합니다. G1은 합성 그래프 이론적 작업에 대한 강화 학습(RL)을 통해 LLM의 그래프 추론 능력을 크게 향상시킵니다. 이를 위해, 다양한 난이도의 50개 그래프 이론적 작업과 10만 개의 훈련 데이터 및 5천 개의 테스트 데이터로 구성된 대규모 그래프 추론 데이터셋 Erdős를 구축했습니다. G1은 RL을 통해 훈련된 3B 모델이 Qwen2.5-72B-Instruct 모델보다 우수한 성능을 보이며, 새로운 작업, 도메인, 그래프 인코딩 방식에 대한 제로샷 일반화 능력도 뛰어나다는 것을 보여줍니다. 본 연구는 RL을 이용한 합성 데이터 기반의 LLM 미세조정이 효율적이고 확장 가능한 강력한 그래프 추론 모델 구축 방안임을 시사합니다. 소스 코드와 데이터셋은 공개적으로 제공됩니다.

시사점, 한계점

시사점:
합성 데이터를 활용한 강화학습 기반 LLM 미세조정을 통해 그래프 추론 능력을 효과적으로 향상시킬 수 있음을 보여줌.
제한된 크기의 모델이 대규모 모델보다 우수한 성능을 보임으로써, 효율적인 모델 훈련 방식을 제시.
RL 훈련된 모델이 제로샷 일반화 능력이 뛰어남을 확인.
다양한 그래프 관련 작업 (노드 분류, 링크 예측 등)에서 성능 향상을 보임.
개발된 모델과 데이터셋을 공개하여 연구의 재현성 및 확장성 확보.
한계점:
Erdős 데이터셋이 합성 데이터에 기반하여 실제 세계 데이터의 다양성을 완벽하게 반영하지 못할 수 있음.
RL 기반 학습의 계산 비용이 상대적으로 높을 수 있음.
합성 데이터의 특성으로 인해, 실제 세계 문제에 대한 일반화 성능의 한계가 존재할 수 있음.
👍