Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing

Created by
  • Haebom

作者

Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang

CannyEdit: Training-Free Regional Image Editing with Structural Guidance and Dual-Prompt Guidance

概要

CannyEditは、テキスト画像(T2I)モデルの生成的な事前知識を活用して、トレーニングなしで画像の特定の領域を編集する新しいフレームワークです。このフレームワークは、編集された領域のテキストコンプライアンス、編集されていない領域のコンテキスト忠実度、および編集のシームレスな統合という3つの課題を解決するために、2つの主要なイノベーションを導入しました。まず、Selective Canny Controlは、Canny ControlNetが提供する構造ガイドを編集されていない領域にのみ適用して、元の画像の詳細を維持しながら、指定された編集可能領域でテキストベースの正確な変更を可能にします。第二に、デュアルプロンプトガイドは、特定の編集のためのローカルプロンプトとシーン全体の一貫性のためのグローバルプロンプトの両方を利用します。これらの相乗効果により、オブジェクトの追加、置換、および削除のための制御可能なローカル編集を行い、テキストコンプライアンス、コンテキスト忠実度、編集の滑らかさの間の優れたバランスを実現します。 CannyEditは、粗いマスクやシングルポイントヒントだけで効果的に機能し、複雑な指示ベースの編集のためにビジョン言語モデルとシームレスに統合できます。

Takeaways、Limitations

Takeaways:
トレーニングなしで画像の特定の領域を効果的に編集可能
テキストコンプライアンス、コンテキスト忠実度、編集の滑らかさのバランスを改善
オブジェクトの追加、置換、削除など、さまざまな編集作業をサポート
ラフマスクやシングルポイントヒントだけで動作
ビジョン - 言語モデルとの統合による複雑な指示ベースの編集可能
従来の方法と比較して複雑なオブジェクトを追加するシナリオにおける優れたパフォーマンス
Limitations:
論文に具体的な Limitations 言及なし (Abstract 内容だけでは把握不可)
👍