Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

Created by
  • Haebom

저자

Junteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 강화 학습(RL)을 활용하는 SynLogic이라는 데이터 합성 프레임워크와 데이터셋을 제시합니다. 기존 연구들이 수학 및 코딩 영역에 집중한 것과 달리, SynLogic은 35가지 다양한 논리 추론 과제를 포함하는 다양하고 검증 가능한 데이터를 대규모로 생성합니다. SynLogic은 난이도와 양을 조절할 수 있으며, 간단한 규칙으로 검증 가능하다는 장점이 있습니다. 실험 결과, 7B 및 32B 모델에서 RL 훈련의 효과를 검증하였고, 기존 최고 성능을 능가하는 논리 추론 성능을 달성했습니다. 특히, 수학 및 코딩 과제와 SynLogic 데이터를 혼합하여 훈련하면 해당 영역의 훈련 효율이 향상되고 추론 일반화 능력이 크게 향상됨을 보였습니다. SynLogic 데이터 합성 파이프라인과 데이터셋은 공개 소스로 제공됩니다.

시사점, 한계점

시사점:
LLM의 일반적인 추론 능력 향상을 위한 새로운 데이터 합성 프레임워크 및 데이터셋 제공.
논리 추론에 중점을 둠으로써 LLM의 기본적인 추론 능력 향상에 기여.
다양한 난이도와 양의 데이터 생성을 통해 RL 훈련의 효율성 향상.
수학 및 코딩 과제와의 혼합 훈련을 통한 추론 일반화 능력 향상.
개방형 접근을 통한 연구 공동체의 발전 기여.
한계점:
현재는 논리 추론에 집중되어 있으며, 다른 유형의 추론(상식 추론 등)에 대한 일반화 가능성은 추가 연구 필요.
합성 데이터의 한계로 인해 실제 세계 문제에 대한 일반화 성능은 추가 검증 필요.
데이터셋의 규모 및 다양성이 향후 더욱 확장될 필요가 있음.
👍