Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Vision Transformer attention alignment with human visual perception in aesthetic object evaluation

Created by
  • Haebom

저자

Miguel Carrasco, Cesar Gonzalez-Martin, Jose Aranda, Luis Oliveros

개요

본 연구는 수공예품(바구니, 생강 항아리)의 심미적 평가에서 인간의 시각적 주의와 비전 트랜스포머(ViT)의 주의 메커니즘 간의 상관관계를 조사했습니다. 30명의 참가자를 대상으로 한 아이트래킹 실험을 통해 인간의 시선 패턴을 기록하고, 사전 훈련된 DINO 기반 ViT 모델을 사용하여 객체의 주의 지도를 추출했습니다. Gaussian parameter (sigma)를 변화시키면서 Kullback-Leibler divergence를 이용하여 인간과 ViT의 주의 분포를 비교 분석했습니다. 그 결과, sigma=2.4에서 가장 높은 상관관계를 보였으며, 특히 ViT의 12번째 어텐션 헤드가 인간의 시각 패턴과 가장 잘 일치하는 것으로 나타났습니다. 반면 7번과 9번 어텐션 헤드는 인간의 주의와 가장 큰 차이를 보였습니다. 결과적으로 ViT는 인간보다 더 전반적인 주의 패턴을 보이지만, 특정 어텐션 헤드는 (예: 바구니의 버클과 같은 특징) 인간의 시각 행동을 근사할 수 있음을 시사합니다.

시사점, 한계점

시사점:
ViT의 특정 어텐션 헤드가 인간의 시각적 주의 패턴을 어느 정도 반영할 수 있음을 보여줌으로써, 제품 디자인 및 심미적 평가 분야에 ViT를 활용할 가능성을 제시합니다.
인간의 시각적 주의와 AI 모델의 주의 메커니즘 간의 차이를 규명하여 향후 AI 모델 개발에 대한 방향을 제시합니다.
한계점:
연구 대상이 바구니와 생강 항아리로 제한되어 일반화 가능성에 한계가 있습니다.
참가자 수가 30명으로 상대적으로 적어 통계적 유의성에 대한 추가 검토가 필요할 수 있습니다.
ViT 모델의 특정 아키텍처 및 사전 훈련 방식에 의존적인 결과일 수 있습니다.
인간의 주의와 ViT의 주의 간의 정량적 비교에 사용된 Kullback-Leibler divergence 및 Gaussian parameter의 적절성에 대한 추가적인 논의가 필요합니다.
👍