Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

Created by
  • Haebom

作者

Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Heung-eeung Shum

概要

本稿では、画像やビデオのテキストベースのカラー編集の問題を解決するために、トレーニングなしで正確で一貫したカラー編集を可能にする新しい方法であるColorCtrlを紹介します。 ColorCtrlは、マルチモード拡散変換器(MM-DiT)のアテンションメカニズムを利用して構造と色を分離し、アテンションマップと値トークンを操作して、正確で一貫したカラー編集と単語レベルの属性強度制御を可能にします。プロンプトで指定された領域のみを変更し、無関係な領域はそのまま維持し、SD3およびFLUX.1-devで従来の訓練なしの方法より優れた性能を示します。特に、FLUX.1 Kontext MaxやGPT-4o Image Generationなどの商用モデルよりも一貫性があり、CogVideoXなどのビデオモデルにも拡張され、時間的な一貫性と編集安定性が向上します。 Step1X-Edit や FLUX.1 Kontext dev などの命令ベースの編集拡散モデルにも一般化され、多様性を実証しています。

Takeaways、Limitations

Takeaways:
トレーニングなしで正確で一貫したテキストベースの画像とビデオのカラー編集を可能にします。
従来のトレーニングなしの方法と商用モデルよりも優れた編集品質と一貫性を達成。
単語レベルの属性強度制御可能。
指定された領域のみを修正し、関連のない領域はそのまま維持。
さまざまな画像やビデオ編集モデルに適用可能。
ビデオ編集時の時間的一貫性と編集安定性の向上。
Limitations:
本稿では具体的なLimitationsを明示的に述べていない。さらなる研究は、パフォーマンスの向上と限界を克服する必要があるかもしれません。
👍