본 논문은 강화 학습(RL)을 이용하여 대규모 언어 모델의 추론 능력을 효과적으로 향상시키는 방법을 제시한다. 기존의 토큰 단위 방법(예: PPO)은 정밀한 이점 신호를 제공하지만 정확한 비평가 모델을 훈련하는 어려움으로 인해 정확도가 떨어지는 반면, 궤적 단위 방법(예: GRPO)은 최종 보상으로부터 얻은 조잡한 이점 신호에만 의존하여 정확한 공로 할당이 어렵다는 한계를 지닌다. 이를 해결하기 위해 본 논문은 세그먼트 단위 이점 추정을 활용하는 새로운 RL 프레임워크인 세그먼트 정책 최적화(SPO)를 제안한다. SPO는 궤적 단위 방법보다 더 정확한 공로 할당을 제공하고 토큰 단위 방법보다 적은 추정 지점을 필요로 하여 비평가 모델 없이도 몬테카를로(MC) 기반의 정확한 이점 추정을 가능하게 한다. SPO는 유연한 세그먼트 분할, 정확한 세그먼트 이점 추정, 그리고 새로운 확률 마스크 전략을 포함한 세그먼트 이점을 사용한 정책 최적화라는 세 가지 핵심 구성 요소를 특징으로 한다. 본 논문에서는 짧은 사고 과정(CoT)을 위한 SPO-chain과 긴 CoT를 위한 SPO-tree라는 두 가지 구체적인 시나리오에 SPO를 적용하여 GSM8K와 MATH500에서 기존 방법들보다 성능 향상을 보임을 실험적으로 증명한다.