Learning to Pose Problems: Reasoning-Driven and Solver-Adaptive Data Synthesis for Large Reasoning Models
Created by
Haebom
Category
Empty
저자
Yongxian Wei, Yilin Zhao, Li Shen, Xinrui Chen, Runxi Cheng, Sinan Du, Hao Yu, Gang Liu, Jiahong Yan, Chun Yuan, Dian Li
개요
대규모 추론 모델 훈련을 위한 데이터 합성은 양질의 데이터 생성을 가능하게 하는 대안이다. 본 논문에서는 (i) 해결사의 능력을 고려하지 않거나 복잡한 데이터 파이프라인에 의존하는 기존 문제점과 (ii) 문제 생성 시 추론의 부족으로 인한 얕은 문제 변형의 문제점을 해결하기 위해, 문제 생성 전에 추론을 통해 문제 방향을 계획하고 해결사의 능력에 맞게 난이도를 조절하는 문제 생성기를 개발했다. 구체적으로, 관련 문제 쌍을 구성하고 추론 모델이 생성한 중간 문제 설계 CoT(Chain of Thought)로 보강했다. 생성된 데이터는 문제 설계 전략을 부트스트래핑하고, 해결사의 피드백을 보상 신호로 사용하여 난이도를 조절하며 해결사의 역량에 근접하는 보완적인 문제를 생성한다. 10개의 수학 및 일반 추론 벤치마크에 대한 실험 결과, 평균 2.5%의 성능 향상을 달성했으며, 언어 및 비전-언어 모델 모두에 일반화되었다. 또한, 합성된 데이터로 훈련된 해결사는 지속적인 생성기 훈련에 대한 향상된 보상을 제공하여 공진화를 가능하게 하고 추가 0.7%의 성능 향상을 이끌었다.