# SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

### 저자

Junteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He

### 개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 강화 학습(RL)을 활용하는 연구에 대해 다룬다. 기존 연구들이 수학 및 코딩 영역에 집중한 것과 달리, 본 논논문은 일반적인 추론 능력 개발을 위한 방법론과 자원의 부족을 지적하며, 논리적 추론의 중요성을 강조한다.  이를 위해 다양한 논리적 추론 작업(35가지)을 포함하는 대규모 데이터셋인 SynLogic을 제시한다. SynLogic은 난이도와 양을 조절할 수 있도록 설계되었으며, 간단한 규칙으로 검증 가능한 데이터를 생성한다.  실험 결과, 7B 및 32B 모델에서 SynLogic 데이터셋을 활용한 RL 훈련이 기존 최고 성능을 능가하며, 특히 수학 및 코딩 작업과 혼합하여 훈련할 경우 추론 일반화 능력이 크게 향상됨을 보였다.  본 연구는 SynLogic 데이터셋과 합성 파이프라인을 공개하여 LLM의 추론 능력 발전에 기여하고자 한다.

### 시사점, 한계점

- **시사점:**

    - 논리적 추론 데이터셋 SynLogic을 제시하여 LLM의 일반적인 추론 능력 향상에 기여.

    - SynLogic을 이용한 RL 훈련이 기존 최고 성능(DeepSeek-R1-Distill-Qwen-32B)을 능가하는 성능 달성.

    - SynLogic 데이터와 다른 영역(수학, 코딩) 데이터의 혼합 훈련을 통해 추론 일반화 능력 향상 및 훈련 효율 증대.

    - SynLogic 데이터셋과 합성 파이프라인을 오픈소스로 공개하여 연구의 재현성 및 확장성 확보.

- **한계점:**

    - SynLogic 데이터셋이 논리적 추론에만 집중되어 있어 실제 세계 문제 해결에 대한 일반화 능력 검증이 추가적으로 필요.

    - 다양한 유형의 추론 문제에 대한 일반화 성능 평가가 더욱 필요.

    - 현재 35가지 논리적 추론 작업만 포함하고 있어, 더욱 다양하고 복잡한 추론 작업을 포함하도록 확장할 필요가 있음.

[PDF 보기](https://arxiv.org/pdf/2505.19641)

![https://i.imgur.com/QQSATBF.jpeg](https://i.imgur.com/QQSATBF.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
