Este estudio investigó la correlación entre la atención visual humana y el mecanismo de atención del Transformador de Visión (ViT) en la evaluación estética de artesanías (cestas, frascos de jengibre). Los patrones de mirada humana se registraron a través de experimentos de seguimiento ocular con 30 participantes, y los mapas de atención de los objetos se extrajeron utilizando un modelo ViT basado en DINO pre-entrenado. Las distribuciones de atención de humanos y ViT se compararon y analizaron utilizando la divergencia de Kullback-Leibler mientras se variaba el parámetro gaussiano (sigma). Como resultado, la correlación más alta se observó en sigma = 2.4, y en particular, se encontró que la 12.ª cabeza de atención de ViT era la más consistente con los patrones visuales humanos. Por otro lado, las cabezas de atención séptima y novena mostraron las mayores diferencias con la atención humana. Como resultado, ViT muestra un patrón de atención más general que los humanos, pero las cabezas de atención específicas (p. ej., características como la hebilla de una cesta) pueden aproximarse al comportamiento visual humano.