본 논문은 최근 발전된 이미지 편집 기술로 인해 이미지의 진위 여부 판별이 어려워짐에 따라, 국소적인 이미지 편집 탐지를 위한 새로운 벤치마크 데이터셋 FragFake와 Vision Language Model(VLM) 기반의 탐지 방법을 제시합니다. 기존 방법들의 한계점인 전역적인 진위 판별, 고비용의 픽셀 단위 어노테이션 필요성, 대규모 고품질 데이터셋 부재를 해결하기 위해, 다양한 편집 모델과 편집 객체를 포함하는 FragFake 데이터셋을 자동 생성 파이프라인을 통해 구축하였습니다. 그리고 최초로 VLM을 이미지 편집 탐지 및 국소 영역 위치 파악에 적용하여, 기존 모델들을 능가하는 성능을 달성했습니다. 더불어 다양한 설정과 편집 시나리오에서 검출기의 성능을 평가하는 ablation 및 전이 학습 분석을 수행했습니다. 이 연구는 국소 이미지 편집 탐지를 시각-언어 이해 과제로 재구성하여, 해당 분야에 새로운 패러다임을 제시합니다.