Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Conditional Variational Autoencoder

Created by
  • Haebom

作者

Wonwoong Cho, Yan-Ying Chen, Matthew Klenk, David I. Inouye, Yanxia Zhang

概要

この論文では、事前に訓練された拡散モデルで複数の属性を同時に正確に制御する問題を解決するための新しいプラグアンドプレイモジュールであるAtt-Adapterを提案します。 Att-Adapterは、ペアリングされていないマルチビジュアル属性を含むサンプルイメージのセットから単一の制御アダプタを学習します。複数のドメイン属性とテキスト条件を自然に調和させるために、別々のクロスアテンションモジュールを活用し、過適合を軽減し、視覚世界のさまざまな特性を満たすために条件付き変分オートエンコーダ(CVAE)を使用します。 2つのパブリックデータセットの評価の結果、Att-Adapterは、連続した属性制御ですべてのLoRAベースの基準モデルを上回り、より広い制御範囲と拡張された属性間の分離性能を示しています。さらに、訓練のために対になった合成データを必要とせず、複数の属性に容易に拡張可能であるという利点がある。

Takeaways、Limitations

Takeaways:
事前訓練された拡散モデルにおける連続した多重属性を正確に制御するための新しい方法を提示する。
ペアリングされていないデータを使用してトレーニング可能、データ効率の向上。
LoRAベースの方法とStyleGANベースの方法より優れた性能
単一モデルから複数の属性に簡単に拡張可能。
広い制御範囲と改善された特性間の分離性能
Limitations:
具体的なLimitationsは論文に明示的に記載されていません。追加の実験または分析によって明らかにすることができます。
特定のドメインまたは属性の一般化性能にはさらなる研究が必要です。
CVAEの使用は必ずしも効率的ではないかもしれません。
👍