本論文は、画像およびビデオ生成モデルの人間の好みのアライメントを改善するためのGuided Reward Policy Optimization(GRPO)の最近の進歩について説明します。従来のGRPOは、ポリシーに基づくロールアウトと過度のSDE(Stochastic Differential Equation)サンプリングステップによる高い計算コストと、希少補償によるトレーニング不安定性の問題を経験しています。これを解決するために、本稿では、SDEサンプリングプロセスを更新する分岐サンプリングポリシーを導入した新しい方法であるBranchGRPOを提案します。共通プレフィックス間の計算共有と低補償パスと重複深さの剪定により、BranchGRPOは更新ごとの計算コストを大幅に削減しながらナビゲーションの多様性を維持または改善します。主な貢献は、分岐サンプリング手法によるロールアウトとトレーニングコストの削減、密集プロセスレベルの補償を組み込んだツリーベースの利点推定器、およびパスと深さの冗長性を活用した剪定戦略による収束速度の向上とパフォーマンスの向上です。実験の結果、BranchGRPOは、強力な基準モデルよりもソートスコアを16%向上させ、トレーニング時間を50%短縮しました。