Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials
Created by
Haebom
Category
Empty
저자
Yifan Pu, Jixuan Ying, Qixiu Li, Tianzhu Ye, Dongchen Han, Xiaochen Wang, Ziyi Wang, Xinyu Shao, Gao Huang, Xiu Li
개요
Vision Transformer(ViT)의 MHSA(Multi-Head Self-Attention)는 이미지 인식 및 생성에서 쿼리-키 상호 작용으로 인해 계산 비용이 높습니다. 본 논문은 MHSA를 대체하는 Visual-Contrast Attention (VCA)를 제안하여 시각적 차별성을 주입하고 이론적 복잡성을 O(N N C)에서 O(N n C)로 줄입니다 (n << N). VCA는 각 헤드의 쿼리 필드를 공간적으로 풀링된 시각적 대비 토큰으로 추출한 다음, 학습 가능한 양성 및 음성 스트림으로 분할하여 한 영역과 다른 영역을 구별합니다. VCA는 DeiT-Tiny 백본에 0.3M 미만의 파라미터를 추가하며, 추가적인 FLOPs를 필요로 하지 않습니다. 실험 결과, ImageNet-1K에서 DeiT-Tiny의 top-1 정확도를 72.2%에서 75.6%로 향상시켰고, 여러 ViT 모델의 성능을 향상시켰으며, 클래스 조건부 ImageNet 생성에서 FID-50K를 감소시켰습니다.
시사점, 한계점
•
시사점:
◦
MHSA를 대체하는 VCA를 통해 ViT의 성능 향상.
◦
계산 복잡성 감소 (O(N N C) -> O(N n C), n << N).
◦
기존 ViT 모델에 쉽게 적용 가능.
◦
ImageNet-1K 및 이미지 생성에서 성능 향상.
◦
공간적 풀링, 이중 위치 임베딩, 대비적 추론의 중요성 입증.
•
한계점:
◦
제시된 한계점은 논문에 직접적으로 언급되지 않음. 추가 연구 및 분석 필요. (예: 다른 데이터셋에서의 성능, VCA의 일반화 성능 등)