RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization
Created by
Haebom
저자
Wen Huang, Jiarui Yang, Tao Dai, Jiawei Li, Shaoxiong Zhan, Bin Wang, Shu-Tao Xia
개요
RelayFormer는 이미지 및 비디오에서 조작된 영역을 식별하는 Visual manipulation localization (VML) 문제를 해결하기 위한 통합 프레임워크입니다. 해상도 다양성 및 모달리티 격차 문제를 해결하기 위해, RelayFormer는 입력 이미지를 고정 크기의 하위 이미지로 분할하고, Global-Local Relay (GLR) 토큰과 global-local relay attention (GLRA) 메커니즘을 도입하여 효율적인 컨텍스트 교환을 가능하게 합니다. RelayFormer는 임의의 해상도와 비디오 시퀀스에 자연스럽게 적용되며, 이미지와 비디오 모두에 대해 통일된 모델링을 제공합니다.
시사점, 한계점
•
해상도 적응성: 보간법이나 과도한 패딩 없이 다양한 해상도에 적응하여 처리 효율성을 높임.
•
통합 모델링: 이미지와 비디오 모두에 대해 단일 모델을 사용.
•
성능 및 효율성 균형: 정확도와 계산 비용 사이에서 균형을 유지하며 SOTA 성능을 달성.