본 논문은 Vision Transformers에서 노이즈가 많은 attention map을 유발하는 고차원(high-norm) 토큰의 출현 메커니즘을 연구합니다. 여러 모델에서 고차원 활성화를 outlier 토큰에 집중시키는 희소 뉴런 집합을 발견하고, 이를 활용하여 추가 학습 없이 고차원 활성화를 새로운 학습되지 않은 토큰으로 이동시켜 노이즈를 완화하는 훈련 없는 방법을 제안합니다. 제안된 방법은 attention map과 feature map을 개선하고, 다양한 downstream visual task에서 성능을 향상시키며, register token으로 명시적으로 훈련된 모델과 유사한 결과를 달성합니다. 또한, test-time registers를 vision-language 모델에 적용하여 텍스트-이미지 귀속에서 더 깨끗한 attention을 얻습니다. 마지막으로, register neuron과 high norm token의 동작을 반영하는 간단한 수학적 모델을 제시합니다.