본 논문은 Vision Transformer에서 관찰되는 고-노름 토큰(high-norm tokens)의 발생 메커니즘과 이로 인한 잡음이 많은 어텐션 맵(attention maps) 현상을 연구합니다. CLIP, DINOv2 등 여러 모델에서 소수의 뉴런이 이상치 토큰(outlier tokens)에 고-노름 활성화를 집중시켜 불규칙적인 어텐션 패턴을 생성하고 하위 시각 처리 과정을 저하시키는 것을 발견했습니다. 기존의 해결책은 추가적인 학습된 레지스터 토큰(register tokens)을 사용하여 모델을 처음부터 다시 학습하는 것이지만, 본 논문에서는 발견된 레지스터 뉴런의 고-노름 활성화를 추가적인 비학습 토큰으로 이동시켜 레지스터 토큰의 효과를 모방하는 학습이 필요 없는 방법을 제시합니다. 이 방법은 여러 하위 시각적 작업에서 기본 모델보다 성능을 향상시키고, 레지스터 토큰으로 명시적으로 학습된 모델과 비교할 만한 결과를 달성합니다. 또한, 사전 학습된 비전-언어 모델에 테스트 시간 레지스터(test-time registers)를 확장하여 해석력을 향상시켰습니다.