본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 위한 새로운 자기 보상(Self-Rewarding) 방식인 '과정 기반 자기 보상(Process-based Self-Rewarding)' 파이프라인을 제안합니다. 기존의 자기 보상 방식은 수학적 추론에서 효과적이지 않고 성능 저하를 야기할 수 있다는 한계를 극복하기 위해, 장기적인 추론, 단계별 LLM-as-a-Judge, 단계별 선호도 최적화를 도입했습니다. 이를 통해 다양한 수학적 추론 벤치마크에서 LLM의 성능을 향상시키고, 자기 보상 방식을 통해 인간의 능력을 뛰어넘는 LLM 추론의 가능성을 보여줍니다.