Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion

Created by
  • Haebom

作者

Xiaoyang Zhang, Zhen Hua, Yakun Ju, Wei Zhou, Jun Liu, Alex C. Kot

概要

本論文では、赤外線および可視光画像融合(IVIF)における既存の方法のLimitationsである深刻な意味の理解の欠如、人工物の発生および詳細な損失の問題を解決するために、Segment Anything Model(SAM)を使用した条件付き拡散モデルであるSGDFuseを提案します。 SGDFuseは、SAMによって生成された高品質のセマンティックマスクを明示的な辞書情報として活用し、条件付き拡散モデルを介して融合プロセスを最適化します。 2段階のプロセスでは、まずマルチモード特徴の予備融合を実行し、その後、SAMのセマンティックマスクと予備融合画像を条件として、拡散モデルの粗さから細かさにつながる脱ノイズ生成を実行します。これは意味論的な方向性を確保し、最終結果の高忠実度を保証します。実験の結果,SGDFuseは主観的および客観的評価と下流の作業適用性の観点から最先端の性能を達成することを示した。ソースコードはGitHubで公開されています。

Takeaways、Limitations

Takeaways:
SAMを活用して意味論的に豊富で高品質の赤外線および可視光線画像融合結果を得ることができることを示した。
既存の方法のLimitationsであるアーティファクトの発生と詳細損失の問題を効果的に解決しました。
ダウンストリーム操作に適しており、実際のアプリケーションの可能性が高い。
最先端のパフォーマンスを達成。
公開されたソースコードによる再現性と拡張性の確保。
Limitations:
SAMのパフォーマンスに依存する可能性があります。 SAMの性能低下がSGDFuseの性能に影響を及ぼす可能性がある。
計算コストが高くなる可能性があります。拡散モデルベースなので処理時間が長くなる可能性存在。
SAMは、特定の種類の画像ではパフォーマンスが低下する可能性があるため、これらの画像の融合性能が低下する可能性があります。
👍