Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

Created by
  • Haebom

作者

Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang

概要

本論文は,拡散モデルを人間の好みに直接整列させる既存の方法の計算コスト問題と,継続的なオフライン補償モデル適応の必要性という二つの主要課題を解決する新しい方法を提示した。従来の方法では、多段階ノイズ除去の過程で傾き計算が必要になり、計算コストが高く、最適化ステップが限られており、リアルな画像や正確な照明効果などを得るために、継続的なオフライン補償モデル適応が必要です。本論文では,多段ノイズ除去の限界を克服するために,ノイズ辞書を事前に定義し,任意の時間ステップで元画像を補間によって効果的に回復するDirect-Align法を提案する。さらに、テキスト条件信号を補償として使用するセマンティック・リラクティブ・プリファレンス・オプティマイゼーション(SRPO)を導入し、ポジティブおよびネガティブ・プロンプトの増強に応じてオンラインで補償を調整することにより、オフライン補償微調整に依存することを軽減します。 FLUXモデルを最適化されたノイズ除去とオンライン補償調整で微調整し、人が評価した事実性と美的品質を3倍以上向上させました。

Takeaways、Limitations

Takeaways:
多段雑音除去の計算コスト問題を効果的に解決するDirect-Align法の提示
オフライン報酬モデル適応への依存性を減らすオンライン報酬調整方法であるSRPO提案
FLUXモデルのリアリティと美的品質を3倍以上向上。
テキストベースの報酬調整により、ユーザーの好みを効果的に反映。
Limitations:
Direct-Align法の性能は、事前定義された雑音辞書の品質に依存し得る。
SRPOの効率は、テキストプロンプトの品質と多様性によって影響を受ける可能性があります。
提案された方法の一般化性能に関するさらなる研究が必要である。
特定のモデル(FLUX)の実験結果のみが提示され、他のモデルの一般化の可能性は不確実です。
👍