[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Fine-Tuning Diffusion Generative Models via Rich Preference Optimization

Created by
  • Haebom

作者

Hanyang Zhao, Haoxian Chen, Yucheng Guo, Genta Indra Winata, Tingting Ou, Ziyu Huang, David D. Yao, Wenpin Tang

概要

Rich Preference Optimization(RPO)は、テキスト画像拡散モデルの微調整のための好みペアのキュレーションを改善するために、豊富なフィードバック信号を利用する新しいパイプラインです。従来のDiffusion-DPOのような方法はしばしば報酬モデルのラベル付けにのみ依存します。逆に、RPOは合成画像に対する詳細な批評を生成することから始まり、信頼できる実行可能な画像編集命令を抽出する。これらのガイドラインを実装することで、微調整されたデータセットとして使用できる改善された合成画像と情報豊富な好みのペアを作成できます。 RPOは、最先端の拡散モデルの微調整で効果的であることを示し、コードはhttps://github.com/Diffusion-RLHF/RPOで利用可能です。

Takeaways、Limitations

Takeaways:
豊富なフィードバック信号(画像の詳細な批評)を活用して既存の方法の限界を克服する(補償モデルラベリングの不透明性、限られた洞察、補償ハッキング、および過適合問題)。
信頼性が高く実行可能な画像編集指示を抽出し、より質の高い合成好みのペアを作成します。
最先端拡散モデルの微調整性能向上に貢献
公開されたコードによる再現性と拡張性の確保。
Limitations:
RPOパイプラインの性能は、画像批評の質に大きく依存し、批評の質が低い場合、性能低下の可能性がある。
合成画像の詳細な批評の生成と画像編集のガイドライン抽出プロセスの計算コストが高くなる可能性があります。
特定のタイプの画像やテキストに対しては性能が低下する可能性がある。さまざまなデータセットに対する追加の実験が必要です。
👍