Sign In

Vision Transformers Don't Need Trained Registers

Created by
  • Haebom
Category
Empty

저자

Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman

개요

본 논문은 Vision Transformers에서 노이즈가 많은 attention map을 유발하는 고차원(high-norm) 토큰의 출현 메커니즘을 연구합니다. 여러 모델에서 고차원 활성화를 outlier 토큰에 집중시키는 희소 뉴런 집합을 발견하고, 이를 활용하여 추가 학습 없이 고차원 활성화를 새로운 학습되지 않은 토큰으로 이동시켜 노이즈를 완화하는 훈련 없는 방법을 제안합니다. 제안된 방법은 attention map과 feature map을 개선하고, 다양한 downstream visual task에서 성능을 향상시키며, register token으로 명시적으로 훈련된 모델과 유사한 결과를 달성합니다. 또한, test-time registers를 vision-language 모델에 적용하여 텍스트-이미지 귀속에서 더 깨끗한 attention을 얻습니다. 마지막으로, register neuron과 high norm token의 동작을 반영하는 간단한 수학적 모델을 제시합니다.

시사점, 한계점

시사점:
Vision Transformers에서 노이즈가 많은 attention map 문제 해결을 위한 훈련 없는 (training-free) 접근 방식 제시
register token 없이 사전 훈련된 모델의 성능을 향상시키는 효과적인 방법 제공
test-time registers를 vision-language 모델에 적용하여 새로운 응용 분야 제시
register neuron과 high norm token의 동작을 설명하는 수학적 모델 제시
한계점:
구체적인 한계점은 논문 요약에서 명시적으로 언급되지 않음 (논문 전체 내용을 확인해야 함)
👍