Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

Created by
  • Haebom

저자

Junteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 강화 학습(RL)을 활용하는 연구에 대해 다룬다. 기존 연구들이 수학 및 코딩 영역에 집중한 것과 달리, 본 논논문은 일반적인 추론 능력 개발을 위한 방법론과 자원의 부족을 지적하며, 논리적 추론의 중요성을 강조한다. 이를 위해 다양한 논리적 추론 작업(35가지)을 포함하는 대규모 데이터셋인 SynLogic을 제시한다. SynLogic은 난이도와 양을 조절할 수 있도록 설계되었으며, 간단한 규칙으로 검증 가능한 데이터를 생성한다. 실험 결과, 7B 및 32B 모델에서 SynLogic 데이터셋을 활용한 RL 훈련이 기존 최고 성능을 능가하며, 특히 수학 및 코딩 작업과 혼합하여 훈련할 경우 추론 일반화 능력이 크게 향상됨을 보였다. 본 연구는 SynLogic 데이터셋과 합성 파이프라인을 공개하여 LLM의 추론 능력 발전에 기여하고자 한다.

시사점, 한계점

시사점:
논리적 추론 데이터셋 SynLogic을 제시하여 LLM의 일반적인 추론 능력 향상에 기여.
SynLogic을 이용한 RL 훈련이 기존 최고 성능(DeepSeek-R1-Distill-Qwen-32B)을 능가하는 성능 달성.
SynLogic 데이터와 다른 영역(수학, 코딩) 데이터의 혼합 훈련을 통해 추론 일반화 능력 향상 및 훈련 효율 증대.
SynLogic 데이터셋과 합성 파이프라인을 오픈소스로 공개하여 연구의 재현성 및 확장성 확보.
한계점:
SynLogic 데이터셋이 논리적 추론에만 집중되어 있어 실제 세계 문제 해결에 대한 일반화 능력 검증이 추가적으로 필요.
다양한 유형의 추론 문제에 대한 일반화 성능 평가가 더욱 필요.
현재 35가지 논리적 추론 작업만 포함하고 있어, 더욱 다양하고 복잡한 추론 작업을 포함하도록 확장할 필요가 있음.
👍