Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Alineación de la atención del Transformador de Visión con la percepción visual humana en la evaluación de objetos estéticos

Created by
  • Haebom

Autor

Miguel Carrasco, César González -Martín , José Aranda, Luis Oliveros

Describir

Este estudio investigó la correlación entre la atención visual humana y el mecanismo de atención del Transformador de Visión (ViT) en la evaluación estética de artesanías (cestas, frascos de jengibre). Los patrones de mirada humana se registraron a través de experimentos de seguimiento ocular con 30 participantes, y los mapas de atención de los objetos se extrajeron utilizando un modelo ViT basado en DINO pre-entrenado. Las distribuciones de atención de humanos y ViT se compararon y analizaron utilizando la divergencia de Kullback-Leibler mientras se variaba el parámetro gaussiano (sigma). Como resultado, la correlación más alta se observó en sigma = 2.4, y en particular, se encontró que la 12.ª cabeza de atención de ViT era la más consistente con los patrones visuales humanos. Por otro lado, las cabezas de atención séptima y novena mostraron las mayores diferencias con la atención humana. Como resultado, ViT muestra un patrón de atención más general que los humanos, pero las cabezas de atención específicas (p. ej., características como la hebilla de una cesta) pueden aproximarse al comportamiento visual humano.

Takeaways, Limitations

Takeaways:
Al demostrar que una cabeza de atención específica de ViT puede reflejar hasta cierto punto los patrones de atención visual humanos, sugerimos la posible aplicación de ViT en los campos del diseño de productos y la evaluación estética.
Al aclarar las diferencias entre la atención visual humana y los mecanismos de atención de los modelos de IA, proporcionamos direcciones para el desarrollo futuro de modelos de IA.
Limitations:
Los sujetos del estudio se limitaron a cestas y frascos de jengibre, lo que limita la generalización.
El número relativamente pequeño de participantes (30) puede requerir una revisión más profunda para determinar su significación estadística.
Este puede ser un resultado que dependa de la arquitectura específica y del método de preentrenamiento del modelo ViT.
Es necesario seguir debatiendo si es adecuado utilizar la divergencia de Kullback-Leibler y los parámetros gaussianos en las comparaciones cuantitativas entre la atención humana y la atención ViT.
👍