[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation

Created by
  • Haebom

作者

Xiang Gao, Jiaying Liu

概要

本稿では、事前に訓練された大規模なテキスト画像拡散モデルをプラグアンドプレイ方式で画像画像変換に適用する新しい方法を紹介します。モデルトレーニング、微調整、オンライン最適化プロセスなしで高品質の多目的テキストベースの画像 - 画像変換を実現します。参照画像を使用したテキスト画像生成のために、DCTスペクトル空間から拡散特徴のさまざまな周波数帯域にガイド要素を分解し、新しい周波数帯域置換レイヤを設計して参照画像の動的制御を可能にします。周波数帯域の種類と帯域幅を調整して、参照画像のガイド要素と強度を柔軟に制御できることを示します。実験の結果、提案された方法は、画像 - 画像変換の画質、多様性、および制御性の点で従来の方法より優れていることを確認した。コードは公に提供されます。

Takeaways、Limitations

Takeaways:
事前に訓練された大規模なテキスト - 画像モデルを活用して、効率的で高品質のテキストベースの画像 - 画像変換を可能にします。
モデルトレーニングなしでプラグアンドプレイ方式で適用可能で、利便性を向上。
周波数帯域調整により、参照画像のガイド要素と強度を柔軟に制御できます。
従来の方法より優れた画質、多様性、制御性を提供。
公開されたコードによる再現性と拡張性の確保。
Limitations:
提案された方法の性能は、事前訓練されたテキスト画像モデルの性能に依存し得る。
特定の種類の画像またはテキストプロンプトのパフォーマンスが低下する可能性があります。
DCTスペクトル空間を用いた周波数分解方式の制限が存在する可能性がある。
さまざまな画像変換操作の一般化性能評価がさらに必要です。
👍