Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Conditional Variational Autoencoder

Created by
  • Haebom

作者

Wonwoong Cho, Yan-Ying Chen, Matthew Klenk, David I. Inouye, Yanxia Zhang

概要

本論文は、事前に訓練されたテキスト画像拡散モデルにおける複数の連続属性(例えば、目の開度、自動車の幅)を同時に正確に制御する新しい方法であるAttribute(Att)アダプタを提案する。 Att-Adapterは、一対のサンプルイメージから単一の制御アダプタを学習し、別々のクロスアテンションモジュールを利用して、複数のドメイン属性とテキスト条件を組み合わせます。過適合を軽減するために、Conditional Variational Autoencoder(CVAE)をさらに導入し、さまざまな視覚世界の特性を反映しています。実験の結果、Att-Adapterは従来のLoRAベースの方法を上回り、より広い制御範囲と改善された属性分離性能を示しました。また、ペアの合成データなしでトレーニング可能で、複数の属性に対するスケーラビリティに優れた利点があります。

Takeaways、Limitations

Takeaways:
事前訓練された拡散モデルにおける連続多重属性を正確に制御する新しい方法を提示する。
非双データを使用して訓練可能で、スケーラビリティに優れています。
LoRAベースの方法とStyleGANベースの方法より優れた性能を示した。
広い制御範囲と向上した特性分離性能を提供。
Limitations:
提示されたLimitationsは論文で明示的に言及されていない。追加の実験または分析によって明らかにされるべきである。たとえば、特定の種類の属性やデータセットの一般化パフォーマンス、計算コストなどが、追加の研究が必要な部分である可能性があります。
👍