Nghiên cứu này đã tìm hiểu mối tương quan giữa sự chú ý thị giác của con người và cơ chế chú ý của Vision Transformer (ViT) trong quá trình đánh giá thẩm mỹ các sản phẩm thủ công (giỏ, lọ gừng). Các kiểu nhìn của con người đã được ghi lại thông qua các thí nghiệm theo dõi mắt với 30 người tham gia và bản đồ chú ý của các vật thể đã được trích xuất bằng cách sử dụng mô hình ViT dựa trên DINO đã được đào tạo trước. Sự phân bố sự chú ý của con người và ViT đã được so sánh và phân tích bằng cách sử dụng phân kỳ Kullback-Leibler trong khi thay đổi tham số Gaussian (sigma). Kết quả là, mối tương quan cao nhất đã được quan sát thấy ở sigma = 2,4 và đặc biệt, đầu chú ý thứ 12 của ViT được phát hiện là phù hợp nhất với các kiểu thị giác của con người. Mặt khác, đầu chú ý thứ 7 và thứ 9 cho thấy sự khác biệt lớn nhất so với sự chú ý của con người. Kết quả là, ViT cho thấy một kiểu chú ý tổng quát hơn so với con người, nhưng các đầu chú ý cụ thể (ví dụ: các đặc điểm như khóa thắt lưng của giỏ) có thể xấp xỉ hành vi thị giác của con người.