Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les transformateurs de vision n'ont pas besoin de registres formés

Created by
  • Haebom

Auteur

Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman

Contour

Cet article étudie le mécanisme du phénomène de carte d'attention bruyante provoqué par l'apparition de jetons de haute norme dans Vision Transformer. Dans plusieurs modèles tels que CLIP et DINOv2, nous avons observé qu'un petit nombre de neurones focalisent leurs activations de haute norme sur des jetons aberrants, générant des schémas d'attention irréguliers et dégradant les performances du traitement visuel de bas niveau. Alors que la méthode conventionnelle de suppression des valeurs aberrantes réentraîne le modèle de A à Z en utilisant des jetons de registre appris supplémentaires, cet article présente une approche sans entraînement qui reproduit l'effet des jetons de registre même dans les modèles sans jetons de registre, en déplaçant les activations de haute norme des neurones de registre découverts vers des jetons non entraînés supplémentaires. Nous montrons que cette approche surpasse le modèle de base sur diverses tâches visuelles de bas niveau et obtient des résultats similaires à ceux des modèles explicitement entraînés avec des jetons de registre. De plus, nous étendons les registres de test au modèle vision-langage pré-entraîné afin d'améliorer son interprétabilité. Nous suggérons que les registres au moment du test jouent efficacement le rôle de jetons de registre au moment du test, fournissant une solution sans formation pour les modèles pré-entraînés publiés sans jetons de registre.

Takeaways, Limitations

Takeaways:
Nous identifions la cause des jetons fixes dans Vision Transformer et présentons une méthode efficace et sans apprentissage pour les résoudre.
Il peut améliorer les performances du modèle plus efficacement et plus facilement que les méthodes de recyclage existantes.
Contribue à améliorer l'interprétabilité des modèles vision-langage pré-entraînés.
Nous présentons l’applicabilité à divers modèles de pré-formation à travers le registre de temps de test.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Les résultats peuvent être limités à des modèles et ensembles de données spécifiques.
Il est nécessaire de vérifier l’efficacité par rapport à d’autres types de valeurs aberrantes ou de bruit.
👍