Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Sự liên kết sự chú ý của Vision Transformer với nhận thức thị giác của con người trong việc đánh giá đối tượng thẩm mỹ

Created by
  • Haebom

Tác giả

Miguel Carrasco, C esar Gonz alez-Mart in, Jos e Aranda, Luis Oliveros

Phác thảo

Nghiên cứu này đã tìm hiểu mối tương quan giữa sự chú ý thị giác của con người và cơ chế chú ý của Vision Transformer (ViT) trong quá trình đánh giá thẩm mỹ các sản phẩm thủ công (giỏ, lọ gừng). Các kiểu nhìn của con người đã được ghi lại thông qua các thí nghiệm theo dõi mắt với 30 người tham gia và bản đồ chú ý của các vật thể đã được trích xuất bằng cách sử dụng mô hình ViT dựa trên DINO đã được đào tạo trước. Sự phân bố sự chú ý của con người và ViT đã được so sánh và phân tích bằng cách sử dụng phân kỳ Kullback-Leibler trong khi thay đổi tham số Gaussian (sigma). Kết quả là, mối tương quan cao nhất đã được quan sát thấy ở sigma = 2,4 và đặc biệt, đầu chú ý thứ 12 của ViT được phát hiện là phù hợp nhất với các kiểu thị giác của con người. Mặt khác, đầu chú ý thứ 7 và thứ 9 cho thấy sự khác biệt lớn nhất so với sự chú ý của con người. Kết quả là, ViT cho thấy một kiểu chú ý tổng quát hơn so với con người, nhưng các đầu chú ý cụ thể (ví dụ: các đặc điểm như khóa thắt lưng của giỏ) có thể xấp xỉ hành vi thị giác của con người.

Takeaways, Limitations

Takeaways:
Bằng cách chứng minh rằng mức độ chú ý cụ thể của ViT có thể phản ánh các kiểu chú ý thị giác của con người ở một mức độ nào đó, chúng tôi đề xuất ứng dụng tiềm năng của ViT trong lĩnh vực thiết kế sản phẩm và đánh giá thẩm mỹ.
Bằng cách làm rõ sự khác biệt giữa sự chú ý thị giác của con người và cơ chế chú ý của các mô hình AI, chúng tôi đưa ra định hướng cho sự phát triển của các mô hình AI trong tương lai.
Limitations:
ĐốI tượng nghiên cứu chỉ giới hạn ở giỏ và lọ gừng, điều này hạn chế khả năng khái quát hóa.
Số lượng người tham gia tương đối nhỏ (30) có thể cần xem xét thêm về ý nghĩa thống kê.
ĐâY có thể là kết quả phụ thuộc vào kiến trúc cụ thể và phương pháp đào tạo trước của mô hình ViT.
Cần thảo luận thêm về tính phù hợp của độ phân kỳ Kullback-Leibler và các tham số Gaussian được sử dụng trong các so sánh định lượng giữa sự chú ý của con người và sự chú ý của ViT.
👍