본 연구는 수공예품(바구니, 생강 항아리)의 심미적 평가에서 인간의 시각적 주의와 비전 트랜스포머(ViT)의 주의 메커니즘 간의 상관관계를 조사했습니다. 30명의 참가자를 대상으로 한 아이트래킹 실험을 통해 인간의 시선 패턴을 기록하고, 사전 훈련된 DINO 기반 ViT 모델을 사용하여 객체의 주의 지도를 추출했습니다. Gaussian parameter (sigma)를 변화시키면서 Kullback-Leibler divergence를 이용하여 인간과 ViT의 주의 분포를 비교 분석했습니다. 그 결과, sigma=2.4에서 가장 높은 상관관계를 보였으며, 특히 ViT의 12번째 어텐션 헤드가 인간의 시각 패턴과 가장 잘 일치하는 것으로 나타났습니다. 반면 7번과 9번 어텐션 헤드는 인간의 주의와 가장 큰 차이를 보였습니다. 결과적으로 ViT는 인간보다 더 전반적인 주의 패턴을 보이지만, 특정 어텐션 헤드는 (예: 바구니의 버클과 같은 특징) 인간의 시각 행동을 근사할 수 있음을 시사합니다.