Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models

Created by
  • Haebom

作者

遊明李、Yikai Wang、Yuying Zhu、Zhongyu Zhao、Ming Lu、Qi She、Shanghang Zhang

概要

本論文は、画像およびビデオ生成モデルの人間の好みのアライメントを改善するためのGuided Reward Policy Optimization(GRPO)の最近の進歩について説明します。従来のGRPOは、ポリシーに基づくロールアウトと過度のSDE(Stochastic Differential Equation)サンプリングステップによる高い計算コストと、希少補償によるトレーニング不安定性の問題を経験しています。これを解決するために、本稿では、SDEサンプリングプロセスを更新する分岐サンプリングポリシーを導入した新しい方法であるBranchGRPOを提案します。共通プレフィックス間の計算共有と低補償パスと重複深さの剪定により、BranchGRPOは更新ごとの計算コストを大幅に削減しながらナビゲーションの多様性を維持または改善します。主な貢献は、分岐サンプリング手法によるロールアウトとトレーニングコストの削減、密集プロセスレベルの補償を組み込んだツリーベースの利点推定器、およびパスと深さの冗長性を活用した剪定戦略による収束速度の向上とパフォーマンスの向上です。実験の結果、BranchGRPOは、強力な基準モデルよりもソートスコアを16%向上させ、トレーニング時間を50%短縮しました。

Takeaways、Limitations

Takeaways:
GRPOの計算コストと訓練の不安定性問題を効果的に解決する新しい方法(BranchGRPO)を提示します。
トレーニング時間の短縮(50%)とアライメントスコアの向上(16%)による画像とビデオ生成モデルの人間の好みのアライメント性能の向上。
分岐サンプリング、ツリーベースの利点推定器、剪定戦略などの新しい技術提示
Limitations:
提案された方法の一般化性能に関するさらなる研究の必要性
さまざまなデータセットとモデルの追加実験が必要です。
密集補償設計の複雑性と最適化プロセスの詳細な説明の欠如の可能性
👍