본 논문은 합성 데이터를 이용한 강화 학습 기반의 기초 모델 적응 방법인 Synthetic Data RL을 제시합니다. 기존 강화 학습 방식의 대규모 수동 라벨링 데이터 의존성 문제를 해결하기 위해, 과제 정의와 검색된 문서에서 질의응답 쌍을 생성하고, 모델의 해결 가능성에 따라 질문 난이도를 조정하며, 평균 통과율을 기반으로 질문을 선택하여 강화 학습을 수행합니다. Qwen-2.5-7B 모델을 대상으로 GSM8K, MATH, GPQA, MedQA, CQA, CFA 등 다양한 데이터셋에서 기존 방식 대비 성능 향상을 보이며, 동일한 데이터 양으로 지도 학습보다 우수한 성능을 달성하고, 전체 인간 데이터를 사용한 강화 학습과 거의 유사한 성능을 보입니다. 소량의 인간 데이터 추가는 성능 향상에 미미한 영향을 미치는 것으로 나타나, 인간 데이터 의존도를 낮춰 확장 가능하고 효율적인 RL 기반 모델 적응을 가능하게 합니다.