この論文では、単一軌道強化学習(RL)で価値関数モデリングなしで直接補償を使用してポリシーを最適化する新しい方法である補償分割最適化(RPO)を紹介します。従来の直接補償最適化(DRO)は、価値関数の近似による高いオフポリシ分散、政策と価値学習の結合、政策に対する絶対的な監督不足などの限界を持ち、RPOはデータから直接推定された分割方法を使用して観測された補償を正規化することによってこの限界を解決します。これは、補助モデルなしでポリシーの簡単な指導学習目標を提供し、Flan-T5モデルを使用したスカラーフィードバック言語モデリング作業における従来の方法よりも優れたパフォーマンスを示します。