Cet article étudie le mécanisme du phénomène de carte d'attention bruyante provoqué par l'apparition de jetons de haute norme dans Vision Transformer. Dans plusieurs modèles tels que CLIP et DINOv2, nous avons observé qu'un petit nombre de neurones focalisent leurs activations de haute norme sur des jetons aberrants, générant des schémas d'attention irréguliers et dégradant les performances du traitement visuel de bas niveau. Alors que la méthode conventionnelle de suppression des valeurs aberrantes réentraîne le modèle de A à Z en utilisant des jetons de registre appris supplémentaires, cet article présente une approche sans entraînement qui reproduit l'effet des jetons de registre même dans les modèles sans jetons de registre, en déplaçant les activations de haute norme des neurones de registre découverts vers des jetons non entraînés supplémentaires. Nous montrons que cette approche surpasse le modèle de base sur diverses tâches visuelles de bas niveau et obtient des résultats similaires à ceux des modèles explicitement entraînés avec des jetons de registre. De plus, nous étendons les registres de test au modèle vision-langage pré-entraîné afin d'améliorer son interprétabilité. Nous suggérons que les registres au moment du test jouent efficacement le rôle de jetons de registre au moment du test, fournissant une solution sans formation pour les modèles pré-entraînés publiés sans jetons de registre.