Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance

Created by
  • Haebom

作者

Luozhijie Jin, Zijie Qiu, Jie Liu, Zijie Diao, Lifeng Qiao, Ning Ding, Alex Lamb, Xipeng Qiu

概要

本論文は、ノイズ除去ベースの生成モデル、特に拡散およびフローマッチングアルゴリズムの成果に基づいて、生成モデルの出力分布を人間の好み、構成精度、データ圧縮率などの複雑な下位目標に合わせる困難を解決しようとする。既存の強化学習(RL)微調整方法の限界を克服するために、拡散モデルのRL微調整を確率微分方程式と暗黙の補償条件化の観点から再解釈する。本論文は、基本モデルとRL微調整モデルの出力を幾何平均を介して組み合わせて分類器なし案内(CFG)を適用する推論時間方法である強化学習案内(RLG)を提示する。理論的分析は、RLGのガイダンス尺度が標準RL目標のKL​​正規化係数を調整することと数学的に等しく、さらなる訓練なしにソート品質のトレードオフの動的制御を可能にすることを示している。さまざまなアーキテクチャ、RLアルゴリズム、およびサブタスク(人間の好み、構成制御、圧縮率、テキストレンダリングなど)にわたって、RLGがRL微調整モデルのパフォーマンスを継続的に向上させることを広範な実験で実証しています。さらに、RLGは補間と外挿の両方をサポートし、生​​成整列制御において前例のない柔軟性を提供します。結論として、本論文は、推論における拡散モデルの整列を改善および制御するための実用的で理論的に妥当な解決策を提供する。

Takeaways、Limitations

Takeaways:
拡散モデルのRL微調整のための新しい方法であるRLGの提示
RLGは、推論時間に幾何平均を使用して基本モデルとRL微調整モデルの出力を組み合わせて、追加のトレーニングなしでアライメント強度を動的に制御可能にします。
人間の好み、構成制御、圧縮率、テキストレンダリングなど、さまざまなサブタスクでRL微調整モデルのパフォーマンスを向上させます。
補間と外挿をサポートすることによる生成整列制御の柔軟性の向上
理論的分析によるRLGの効果を数学的に証明した。
ソースコード公開。
Limitations:
本論文で提示されているRLGの性能は、特定のデータセットとタスクの実験結果に基づいており、他のデータセットまたはタスクの一般化性能にはさらなる研究が必要です。
RLGの計算コストは​​従来の方法より高くなる可能性があります。
RLGのガイドスケール調整のための最適な戦略は、さらなる研究によってさらに改善することができます。
👍