Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Training-Free In-Context Forensic Chain for Image Manipulation Detection and Localization

Created by
  • Haebom

作者

Rui Chen, Bin Liu, Changtao Miao, Xinghao Wang, Yi Li, Tao Gong, Qi Chu, Nenghai Yu

概要

画像変調技術の発展は深刻なセキュリティ脅威を引き起こし、効果的な画像操作位置追跡(IML)の必要性を強調します。マップ学習ベースのIMLは強力なパフォーマンスを示していますが、ピクセル単位のコメントにはコストがかかります。既存の薬物地図または非地図の代替物はしばしば性能が低下し、解釈の可能性が不足している。本論文は、解釈可能なIML作業のためにマルチモード大型言語モデル(MLLM)を利用する訓練を必要としないフレームワークであるIn-Context Forensic Chain(ICFC)を提案する。 ICFCは、オブジェクト化されたルールの構築と適応フィルタリングを統合して信頼できる知識ベースを構築し、粗い提案から細分化されたフォレンジックの結果まで、専門家のフォレンジックワークフローを模倣する多段階プログレッシブ推論パイプラインを構築します。この設計は、画像レベルの分類、ピクセルレベルの位置追跡、およびテキストレベルの解釈の可能性のためにMLLM推論を体系的に活用することを可能にします。いくつかのベンチマークでは、ICFCは最先端の訓練を必要としない方法を上回るだけでなく、薬指導および完全地図アプローチと比較して競争力のあるまたは優れたパフォーマンスを達成します。

Takeaways、Limitations

トレーニングが不要なフレームワークで、画像操作位置追跡の問題を解決。
マルチモードラージ言語モデル(MLLM)を活用して解釈可能な結果を​​提供します。
オブジェクト化されたルールの構築と適応フィルタリングによる信頼できる知識ベースの構築。
プロフェッショナルフォレンジックワークフローを模倣した多段階プログレッシブ推論パイプラインによるパフォーマンスの向上。
複数のベンチマークで既存の方法論に比べて優れた性能を実証。
論文の内容に具体的なLimitations言及なし。 (しかし、訓練を必要としないフレームワークなので、MLLMのパフォーマンスによって結果が異なる可能性があるという点が潜在的な制限になる可能性があります。)
👍