Purrturbed but Stable: Human-Cat Invariant Representations Across CNNs, ViTs and Self-Supervised ViTs
Created by
Haebom
Category
Empty
저자
Arya Shah, Vaibhav Tripathi
개요
고양이와 인간의 시각 해부학적 차이점(세로로 길쭉한 동공)에도 불구하고, 다양한 딥러닝 모델(CNN, Vision Transformer, Windowed Transformer, DINO)을 사용하여 고양이-인간 간 시각적 표현의 유사성을 정량적으로 분석했습니다. DINO ViT-B/16 모델이 가장 높은 정렬을 보였으며, 이는 토큰 레벨의 자기 지도 학습이 종 특이적 통계를 연결하는 초기 단계의 특징을 유도함을 시사합니다.
시사점, 한계점
•
시사점:
◦
DINO ViT-B/16 모델이 고양이와 인간의 시각적 표현 정렬에서 가장 높은 성능을 보였습니다.