본 논문은 자기 성찰과 오류 수정을 활용하여 어려운 수학 문제에 대한 대형 언어 모델의 성능을 향상시키기 위한 새로운 강화 학습 프레임워크인 ScRPO(Self-correction Relative Policy Optimization)를 제안합니다. ScRPO는 (1) GRPO를 사용한 시행착오 학습 단계와 오류 풀에서 부정확한 답을 수집하는 단계, (2) 모델이 이전 답이 틀린 이유를 성찰하도록 유도하는 자기 수정 학습 단계로 구성됩니다. Deepseek-Distill-Qwen-1.5B 및 Deepseek-Distill-Qwen-7B 모델을 사용하여 AIME, AMC, Olympiad, MATH-500, GSM8k를 포함한 여러 수학적 추론 벤치마크에서 광범위한 실험을 수행했습니다. 실험 결과는 ScRPO가 여러 후처리 방법을 일관되게 능가함을 보여줍니다.