본 논문은 단일궤적 강화학습(RL) 방법 중 하나인 보상 분할 최적화(RPO)를 제안한다. 기존의 직접 보상 최적화(DRO)는 가치 함수를 근사해야 하므로 높은 오프폴리시 분산, 정책과 가치 학습 간의 결합, 정책 자체에 대한 절대적 감독의 부족 등의 한계점을 가진다. RPO는 가치 함수를 모델링할 필요 없이 데이터로부터 직접 추정된 분할 접근 방식을 사용하여 관찰된 보상을 정규화함으로써 이러한 한계점을 해결한다. 이는 보조 모델 없이 정책에 대한 간단하고 안정적인 감독 학습 목표를 제공한다. Flan-T5 모델을 사용한 스칼라 피드백 언어 모델링 작업에서 RPO가 DRO 및 Kahneman-Tversky Optimization (KTO)와 같은 기존의 단일궤적 기준 모델보다 성능이 우수함을 실험적으로 보여준다.