LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models
Created by
Haebom
저자
Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang
개요
본 논문은 DINOv2와 CLIP과 같은 비전 기반 모델(VFMs)의 제한된 특징 해상도 문제를 해결하기 위해, 특징 업샘플링 기법을 제시합니다. 고해상도 이미지와 저해상도 VFM 특징을 통합하는 좌표 기반 크로스 어텐션 트랜스포머 아키텍처와 클래스 비의존 마스크 및 자기 증류를 활용한 고해상도 의사 정답 특징 생성 방법을 제안합니다. 실험 결과, 제안된 방법이 다양한 downstream task에서 기존의 특징 업샘플링 기법들을 상당히 능가함을 보여줍니다. 코드는 https://github.com/andrehuang/loftup 에서 공개됩니다.