Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Passive Perception to Active Memory: A Weakly Supervised Image Manipulation Localization Framework Driven by Coarse-Grained Annotations

Created by
  • Haebom
Category
Empty

저자

Zhiqing Guo, Dongdong Xi, Songlin Li, Gaobo Yang

개요

본 논문은 이미지 조작 위치 추정(IML)에서 어노테이션 비용과 세밀한 위치 정확도 사이의 딜레마를 해결하기 위해 BoxPromptIML을 제안한다. 이 프레임워크는 낮은 비용으로 비교적 정확한 조작 마스크를 생성하는 거친 영역 어노테이션 전략을 사용한다. 또한, Segment Anything Model (SAM) 기반의 고정된 teacher model로부터 지식 증류를 통해 세밀한 위치 추정을 수행하는 효율적인 경량 student model을 설계했다. 마지막으로, 인간의 잠재 의식 기억 메커니즘에서 영감을 얻어, feature fusion module은 입력에서 파생된 실시간 관찰 단서와 재호출된 프로토타입 패턴을 적극적으로 문맥화하는 이중 지침 전략을 사용한다. BoxPromptIML은 광범위한 실험을 통해 강력한 일반화, 낮은 어노테이션 비용 및 효율적인 배포 특성을 유지하면서 완전 지도 학습 모델을 능가하거나 경쟁하는 성능을 보였다.

시사점, 한계점

시사점:
어노테이션 비용과 위치 정확도 사이의 균형을 효과적으로 달성.
SAM 기반 teacher model을 활용하여 우수한 성능과 일반화 능력 확보.
경량 student model 설계를 통해 효율적인 배포 가능성 제시.
인간의 기억 메커니즘을 모방한 feature fusion module을 통해 정확도와 견고성 향상.
한계점:
SAM에 의존하므로, SAM의 성능에 종속될 수 있음.
실험 데이터셋 외의 환경에서의 일반화 성능에 대한 추가적인 검증 필요.
경량 student model의 최적화 및 추가적인 성능 개선 여지 존재.
👍