Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DinoLizer: Learning from the Best for Generative Inpainting Localization

Created by
  • Haebom
Category
Empty

저자

Minh Thong Doi (IMT Nord Europe, CRIStAL), Jan Butora (CRIStAL), Vincent Itier (IMT Nord Europe, CRIStAL), Jeremie Boulanger (CRIStAL), Patrick Bas (CRIStAL)

개요

DinoLizer는 DINOv2 기반 모델로, 생성적 inpainting에서 조작된 영역을 지역화합니다. B-Free 데이터셋에서 합성 이미지를 감지하도록 사전 훈련된 DINOv2 모델을 기반으로 하며, Vision Transformer의 패치 임베딩 위에 선형 분류 헤드를 추가하여 $14\times 14$ 패치 해상도에서 조작을 예측합니다. 이 헤드는 비의미적 편집을 원래 내용의 일부로 취급하여 의미적으로 변경된 영역에 초점을 맞추도록 훈련되었습니다. Sliding-window 방식을 사용하여 큰 이미지에 대한 예측을 집계하고, 결과 히트맵을 후처리하여 이진 조작 마스크를 개선합니다. DinoLizer는 다양한 inpainting 데이터셋에서 최첨단 지역 조작 감지기를 능가하며, resizing, noise 추가, JPEG 압축과 같은 일반적인 후처리 작업에도 강건합니다. DINOv2와 DINOv3의 비교를 통해 DinoLizer의 우수성이 확인되었습니다.

시사점, 한계점

DINOv2 기반 모델을 사용하여 생성적 inpainting에서 조작된 영역을 효과적으로 지역화합니다.
다양한 inpainting 데이터셋에서 기존 모델보다 높은 IoU를 달성합니다.
후처리 작업에 강건합니다.
DINOv2의 강력한 표현력을 보여줍니다.
DINOv3보다 성능이 우수합니다.
ViT가 고정 크기 입력을 받기 때문에 sliding-window 방식을 사용해야 합니다.
👍