Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Fake it till You Make it: Reward Modeling as Discriminative Prediction

Created by
  • Haebom

作者

Runtao Liu, Jiahao Zhan, Yingqing He, Chen Wei, Alan Yuille, Qifeng Chen

概要

本論文は、視覚生成モデルの事後訓練を改善するための強化学習における効果的な補償モデリングの重要性を強調しています。既存の方法は、大量の人が注釈を付けた好みデータまたは細心の注意を払って設計された品質レベルに依存して、実装の複雑さが高いという限界を有する。この論文では、GAN(Generative Adversarial Networks)の敵対的な訓練に触発され、手動の好み注釈と明示的な品質ディメンション設計を排除した効率的な報酬モデリングフレームワークであるGAN-RMを提案します。 GAN-RMは、少量の代表的なフェアデータ(Preference Proxy Data)とモデルによって生成された一般的な出力との間の判別によって補償モデルを訓練し、数百の目標サンプルのみが必要です。さまざまな実験で、Best-of-Nサンプルフィルタリング、SFT(Supervised Fine-Tuning)、DPO(Direct Preference Optimization)など、いくつかの主要なアプリケーションでGAN-RMの効果を実証します。コードとデータはhttps://github.com/Visualignment/GAN-RMで公開される予定です。

Takeaways、Limitations

Takeaways:
人のコメントを必要としない効率的な報酬モデリングフレームワークGAN-RMを提示
少量の代表サンプルだけでも効果的な補償モデル学習が可能
Best-of-N、SFT、DPOなど、さまざまなアプリケーションで効果を実証
既存の方法の複雑性と非効率性のトラブルシューティング
Limitations:
Preference Proxy Data の選択方法の詳細な説明が不足
さまざまな生成モデルとデータセットの一般化パフォーマンス検証が必要
特定の種類の視覚生成モデルにのみ適用可能な可能性の存在
👍