Sign In

Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials

Created by
  • Haebom
Category
Empty

저자

Yifan Pu, Jixuan Ying, Qixiu Li, Tianzhu Ye, Dongchen Han, Xiaochen Wang, Ziyi Wang, Xinyu Shao, Gao Huang, Xiu Li

개요

Vision Transformer(ViT)의 MHSA(Multi-Head Self-Attention)는 이미지 인식 및 생성에서 쿼리-키 상호 작용으로 인해 계산 비용이 높습니다. 본 논문은 MHSA를 대체하는 Visual-Contrast Attention (VCA)를 제안하여 시각적 차별성을 주입하고 이론적 복잡성을 O(N N C)에서 O(N n C)로 줄입니다 (n << N). VCA는 각 헤드의 쿼리 필드를 공간적으로 풀링된 시각적 대비 토큰으로 추출한 다음, 학습 가능한 양성 및 음성 스트림으로 분할하여 한 영역과 다른 영역을 구별합니다. VCA는 DeiT-Tiny 백본에 0.3M 미만의 파라미터를 추가하며, 추가적인 FLOPs를 필요로 하지 않습니다. 실험 결과, ImageNet-1K에서 DeiT-Tiny의 top-1 정확도를 72.2%에서 75.6%로 향상시켰고, 여러 ViT 모델의 성능을 향상시켰으며, 클래스 조건부 ImageNet 생성에서 FID-50K를 감소시켰습니다.

시사점, 한계점

시사점:
MHSA를 대체하는 VCA를 통해 ViT의 성능 향상.
계산 복잡성 감소 (O(N N C) -> O(N n C), n << N).
기존 ViT 모델에 쉽게 적용 가능.
ImageNet-1K 및 이미지 생성에서 성능 향상.
공간적 풀링, 이중 위치 임베딩, 대비적 추론의 중요성 입증.
한계점:
제시된 한계점은 논문에 직접적으로 언급되지 않음. 추가 연구 및 분석 필요. (예: 다른 데이터셋에서의 성능, VCA의 일반화 성능 등)
👍