Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization

Created by
  • Haebom

저자

Wen Huang, Jiarui Yang, Tao Dai, Jiawei Li, Shaoxiong Zhan, Bin Wang, Shu-Tao Xia

개요

RelayFormer는 이미지 및 비디오에서 조작된 영역을 식별하는 Visual manipulation localization (VML) 문제를 해결하기 위한 통합 프레임워크입니다. 해상도 다양성 및 모달리티 격차 문제를 해결하기 위해, RelayFormer는 입력 이미지를 고정 크기의 하위 이미지로 분할하고, Global-Local Relay (GLR) 토큰과 global-local relay attention (GLRA) 메커니즘을 도입하여 효율적인 컨텍스트 교환을 가능하게 합니다. RelayFormer는 임의의 해상도와 비디오 시퀀스에 자연스럽게 적용되며, 이미지와 비디오 모두에 대해 통일된 모델링을 제공합니다.

시사점, 한계점

해상도 적응성: 보간법이나 과도한 패딩 없이 다양한 해상도에 적응하여 처리 효율성을 높임.
통합 모델링: 이미지와 비디오 모두에 대해 단일 모델을 사용.
성능 및 효율성 균형: 정확도와 계산 비용 사이에서 균형을 유지하며 SOTA 성능을 달성.
한계점: 구체적인 한계점은 논문에서 명시적으로 언급되지 않음.
👍