Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

Created by
  • Haebom

作者

Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Lei Zhang, Heung-eeung Shum

概要

この論文では、画像とビデオのテキストベースの色を編集するための新しい方法であるColorCtrlを紹介します。従来の学習を必要としない方法が正確な色制御に困難をもたらし、視覚的な不一致を引き起こす問題を解決するために、ColorCtrlはマルチモード拡散変圧器(MM-DiT)のアテンションメカニズムを利用します。アテンションマップと値トークンの操作により、構造と色を分離し、正確で一貫した色編集と単語レベルの属性強度制御を可能にします。プロンプトで指定された領域のみを変更し、関連のない領域はそのまま残り、SD3およびFLUX.1-devデータセットの既存の方法および商用モデル(FLUX.1 Kontext Max、GPT-4o Image Generation)よりも優れたパフォーマンスを示します。 CogVideoXなどのビデオモデルにも適用でき、特に時間の一貫性と編集の安定性を向上させます。 Step1X-EditやFLUX.1 Kontext devなどの命令ベースの編集拡散モデルにも一般化されています。

Takeaways、Limitations

Takeaways:
マルチモード拡散トランスのアテンションメカニズムを利用して、正確で一貫したテキストベースのカラー編集を可能にします。
単語レベルの属性強度制御を提供します。
プロンプトで指定された領域のみを変更して、関連しない領域の影響を最小限に抑えます。
画像とビデオ、さまざまな拡散モデルに適用可能な汎用性を持っています。
従来の学習を必要としない方法や商用モデルよりも優れた性能を示す。
ビデオ編集時の時間的一貫性と編集安定性を向上させます。
Limitations:
論文で具体的なLimitationsは明示的に言及されていない。追加の実験または分析によって、実際の適用時に発生する可能性があるLimitations(たとえば、特定の種類の画像/ビデオのパフォーマンスの低下、計算コスト、メモリ使用量など)を明らかにする必要があります。
👍