본 논문은 강화 학습(RL)을 사용하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 방법을 제시합니다. 기존의 Group Relative Policy Optimization (GRPO) 방법은 모든 응답이 잘못된 그룹(all-negative-sample groups)에 대해 정책을 업데이트하지 못하는 한계를 가지고 있습니다. 이를 해결하기 위해, 본 논문에서는 단계적 판단 모델(step-wise judge model)을 사용하여 그룹 내 응답의 다양성을 높이는 간단한 프레임워크인 stepwise guided policy optimization (SGPO)를 제안합니다. 이 모델은 기존의 LLM을 활용하거나 직접 훈련될 수 있으며, 간소화된 환경에서 GRPO의 학습 속도를 향상시킨다는 것을 이론적으로 증명합니다. 실험 결과, SGPO는 9개의 벤치마크(기본 및 증류 버전 포함)에서 다양한 크기의 모델(7B, 14B, 32B)에 대해 오프라인 및 온라인 학습 모두에서 GRPO를 능가하며, 특히 all-negative-sample groups가 많은 초기 및 중간 학습 단계에서 성능 향상이 두드러집니다. 또한, SGPO는 정답을 생성하는 판단 모델을 필요로 하지 않아 지식 증류 방법과 차별화됩니다.