Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unlocking the Forgery Detection Potential of Vanilla MLLMs: A Novel Training-Free Pipeline

Created by
  • Haebom
Category
Empty

저자

Rui Zuo, Qinyue Tong, Zhe-Ming Lu, Ziqian Lu

개요

인공지능 생성 콘텐츠(AIGC) 기술 발전으로 이미지 생성 및 조작이 쉬워짐에 따라, 다양한 데이터셋에 대한 일반화와 해석 가능성이 부족한 기존 이미지 위조 탐지 및 위치 추정(IFDL) 방법의 한계를 지적합니다. Foresee는 훈련 없이 MLLM(Multimodal Large Language Models)을 기반으로 한 파이프라인으로, 훈련 없이 가벼운 추론 과정을 통해 기존 MLLM 기반 방법보다 우수한 위치 추정 정확도와 풍부한 텍스트 설명을 제공합니다. Foresee는 type-prior 기반 전략과 Flexible Feature Detector(FFD) 모듈을 사용하여 복사-이동 조작을 특별히 처리하여 바닐라 MLLM의 잠재력을 최대한 활용합니다. 다양한 조작 유형(복사-이동, 스플라이싱, 제거, 로컬 향상, 딥페이크, AIGC 기반 편집)에 대해 기존 IFDL 방법보다 뛰어난 일반화 능력을 보입니다.

시사점, 한계점

훈련이 필요 없는 MLLM 기반 파이프라인 제안
기존 MLLM 기반 방법보다 우수한 위치 추정 정확도와 텍스트 설명 제공
복사-이동 조작 처리를 위한 FFD 모듈 사용
다양한 조작 유형에 대한 뛰어난 일반화 능력 입증
코드 공개 예정
👍