Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Reward-Directed Score-Based Diffusion Models via q-Learning

Created by
  • Haebom

作者

Xuefeng Gao, Jiale Zha, Xun Yu Zhou

概要

この論文は、生成AIのための連続時間スコアベースの拡散モデルを訓練する新しい強化学習(RL)式を提案します。この式は、生成された分布を未知の目標データ分布に近づけながら補償関数を最大化するサンプルを生成します。従来の研究とは異なり、未知のノイズが追加されたデータ分布のスコア関数の事前訓練モデルを使用したり、スコア関数を学習したりすることはありません。代わりに、エントロピーで規制された連続時間RLで問題を定式化し、最適確率的方針が既知の共分散行列を持つガウス分布を持つことを示しています。この結果に基づいて、ガウス政策の平均をパラメータ化し、RL問題を解決するために、actor-critic型の(小さい)q学習アルゴリズムを開発します。アルゴリズム設計の重要な要素は、比率推定器を介して未知のスコア関数からノイズのある観測値を取得することです。この式は、純粋なスコアマッチングと事前訓練されたモデルの微調整を解決するためにも適用できます。数値的には、高次元画像生成を含む複数の生成作業で事前に訓練されたモデルを微調整する2つの最先端のRL方法とパフォーマンスを比較して、このアプローチの効果を実証します。最後に,拡散モデルの確率フローODEの実装と条件付き拡散モデルに対するRL式の拡張について議論した。

Takeaways、Limitations

Takeaways:
事前訓練されたモデルなしで連続時間スコアベースの拡散モデルを訓練する新しいRL公式提示。
最適政策のガウス分布特性を用いた効率的なアルゴリズム開発
比推定器を利用した雑音観測値の取得による効果的な学習
ピュアスコアマッチングや事前トレーニングモデルの微調整にも適用可能。
高次元画像生成など、多様な生成作業における従来方法に比べて優れた性能実証。
確率フローODEと条件付き拡散モデルへのスケーラビリティの提示
Limitations:
提案された方法の一般化性能に関する追加の実験と分析の必要性
高次元データのスケーラビリティと計算コストの追加研究が必要
比推定器の精度によっては性能が影響を受ける可能性があります。
未知のスコア関数に関する情報がまったくない状況でのパフォーマンス制限。
👍