Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los transformadores de visión no necesitan registradores capacitados

Created by
  • Haebom

Autor

Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman

Describir

Este artículo investiga el mecanismo del fenómeno del mapa de atención ruidoso causado por la aparición de tokens de alta norma en Vision Transformer. En varios modelos como CLIP y DINOv2, observamos que un pequeño número de neuronas centra sus activaciones de alta norma en tokens atípicos, generando patrones de atención irregulares y degradando el rendimiento del procesamiento visual de bajo nivel. Mientras que el método convencional de eliminación de valores atípicos reentrena el modelo desde cero utilizando tokens de registro aprendidos adicionales, en este artículo presentamos un enfoque sin entrenamiento que imita el efecto de los tokens de registro incluso en modelos sin tokens de registro, trasladando las activaciones de alta norma de las neuronas de registro descubiertas a tokens adicionales sin entrenar. Demostramos que supera al modelo base en diversas tareas visuales de bajo nivel y obtiene resultados similares a los modelos entrenados explícitamente con tokens de registro. Además, extendemos los registros en tiempo de prueba al modelo de visión-lenguaje preentrenado para mejorar su interpretabilidad. Sugerimos que los registros en tiempo de prueba desempeñen efectivamente el papel de tokens de registro en el momento de la prueba, brindando una solución sin entrenamiento para los modelos preentrenados publicados sin tokens de registro.

Takeaways, Limitations

Takeaways:
Identificamos la causa de los tokens fijos en Vision Transformer y presentamos un método efectivo y sin necesidad de aprendizaje para resolverlos.
Puede mejorar el rendimiento del modelo de forma más eficiente y sencilla que los métodos de reentrenamiento existentes.
Contribuye a mejorar la interpretabilidad de los modelos de visión-lenguaje previamente entrenados.
Presentamos la aplicabilidad a varios modelos de pre-entrenamiento a través del registro de tiempos de prueba.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Los resultados pueden estar limitados a modelos y conjuntos de datos específicos.
Necesidad de verificar la eficacia frente a otros tipos de valores atípicos o ruido.
👍