FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models

작성자

Haebom

카테고리

Empty

저자

Zhipei Xu, Xuanyu Zhang, Runyi Li, Zecheng Tang, Qing Huang, Jian Zhang

개요

본 논문은 생성형 AI의 발전으로 인해 이미지 조작이 쉬워지고 탐지가 어려워짐에 따라, 설명 가능한 이미지 위변조 탐지 및 위치 파악(IFDL)을 위한 멀티모달 프레임워크 FakeShield를 제안합니다. FakeShield는 이미지의 진위 여부를 평가하고, 조작 영역 마스크를 생성하며, 픽셀 단위 및 이미지 단위 조작 단서를 기반으로 판단 근거를 제공합니다. 기존 IFDL 데이터셋을 GPT-4를 활용하여 확장한 MMTD-Set을 사용하여 훈련하고, 다양한 유형의 조작 탐지 해석을 다루고 상세한 텍스트 설명에 따라 위변조 위치 파악을 달성하기 위해 DTE-FDM과 MFLM 모듈을 통합했습니다. 실험 결과, FakeShield는 다양한 조작 기법을 효과적으로 탐지 및 위치 파악하며, 기존 IFDL 방법보다 우수한 설명 가능한 솔루션임을 보여줍니다.

시사점, 한계점

•

시사점:

◦

설명 가능한 이미지 위변조 탐지 및 위치 파악(IFDL) 프레임워크 FakeShield 제시

◦

다양한 조작 기법(Photoshop, DeepFake, AIGC-Editing 등)에 대한 일반화 성능 향상

◦

GPT-4 활용한 데이터셋 확장 및 질 향상 (MMTD-Set)

◦

픽셀 및 이미지 단위 조작 단서 기반의 설명 가능한 판단 근거 제공

◦

DTE-FDM과 MFLM 모듈을 통한 다양한 조작 유형 탐지 및 정확한 위치 파악

◦

오픈소스 코드 공개

•

한계점:

◦

GPT-4 활용에 따른 비용 및 접근성 문제

◦

MMTD-Set의 범용성 및 일반화 가능성에 대한 추가 검증 필요

◦

실제 다양한 환경에서의 성능 검증 필요

◦

새로운 조작 기법에 대한 적응력에 대한 추가 연구 필요

PDF 보기

Made with Slashpage