본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 프로세스 강화 학습(PRL)의 잠재력을 활용하면서도, 추가적인 프로세스 보상 모델 도입으로 인한 높은 계산 비용 문제를 해결하는 새로운 프레임워크인 자기 지도 프로세스 보상 최적화(SPRO)를 제안합니다. SPRO는 프로세스 보상을 정책 모델 자체에서 내재적으로 도출할 수 있음을 이론적으로 증명하고, 잘 정의된 누적 프로세스 보상과 마스크 단계 이점(MSA)을 도입하여 공유 프롬프트 샘플링 그룹 내에서 엄격한 단계별 행동 이점 추정을 가능하게 합니다. 실험 결과, SPRO는 기존 GRPO보다 3.4배 높은 훈련 효율과 17.5% 향상된 테스트 정확도를 보였으며, 안정적인 정책 엔트로피 유지와 응답 길이 감소 효과를 통해 충분한 탐색과 보상 해킹 방지를 확인했습니다. 특히, SPRO는 GRPO와 같은 결과 감독 강화 학습 방법과 비교하여 추가적인 계산 비용이 발생하지 않아 산업적 구현에 유리합니다.