Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

Created by
  • Haebom

作者

Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang

概要

本論文は,拡散モデルを人間の好みに直接的に整列させる既存の方法の計算コスト問題と継続的なオフライン補償モデル適応の必要性という二つの主要課題を解決するために,Direct-Alignという新しい方法を提案する。 Direct-Alignは、ノイズ辞書を定義し、補間を介してすべての時間ステップで元の画像を効果的に回復することによって、マルチステップ脱雑音プロセスの計算コストを削減します。さらに、テキスト条件付き信号を補償として使用するセマンティック・リラクティブ・プリファレンス・オプティマイゼーション(SRPO)を導入することで、ポジティブおよびネガティブなプロンプトの増大に応じて報酬をオンラインで調整することで、オフライン報酬の微調整に依存することを軽減します.その結果、FLUXモデルの微調整により、人間評価基準の現実性と美的品質を3倍以上向上させました。

Takeaways、Limitations

Takeaways:
多段階脱雑音プロセスの計算コスト問題を効果的に解決する新しい方法(Direct-Align)の提示
オフライン報酬モデルの微調整への依存を減らすオンライン報酬調整方法(SRPO)を提示します。
FLUXモデルの現実性と美的品質を大幅に向上させます。
Limitations:
提案された方法の一般化性能に関するさらなる研究が必要である。
特定のモデル(FLUX)の結果であるため、他の拡散モデルに適用可能性の検証が必要です。
SRPOのテキスト条件付き信号への依存性が高く、テキストの説明の質によってパフォーマンスが影響を受ける可能性があります。
👍