본 논문은 단일궤적 강화학습(RL)에서 가치 함수 모델링 없이 직접 보상을 사용하여 정책을 최적화하는 새로운 방법인 보상 분할 최적화(RPO)를 제시합니다. 기존의 직접 보상 최적화(DRO)는 가치 함수 근사로 인해 높은 오프폴리시 분산, 정책과 가치 학습 간의 결합, 정책에 대한 절대적 감독 부족 등의 한계를 가지는 반면, RPO는 데이터에서 직접 추정된 분할 방법을 사용하여 관찰된 보상을 정규화함으로써 이러한 한계를 해결합니다. 이는 보조 모델 없이 정책에 대한 간단한 지도 학습 목표를 제공하며, Flan-T5 모델을 이용한 스칼라 피드백 언어 모델링 작업에서 기존 방법들보다 우수한 성능을 보입니다.