Sign In

Purrturbed but Stable: Human-Cat Invariant Representations Across CNNs, ViTs and Self-Supervised ViTs

Created by
  • Haebom
Category
Empty

저자

Arya Shah, Vaibhav Tripathi

개요

고양이와 인간의 시각 해부학적 차이점(세로로 길쭉한 동공)에도 불구하고, 다양한 딥러닝 모델(CNN, Vision Transformer, Windowed Transformer, DINO)을 사용하여 고양이-인간 간 시각적 표현의 유사성을 정량적으로 분석했습니다. DINO ViT-B/16 모델이 가장 높은 정렬을 보였으며, 이는 토큰 레벨의 자기 지도 학습이 종 특이적 통계를 연결하는 초기 단계의 특징을 유도함을 시사합니다.

시사점, 한계점

시사점:
DINO ViT-B/16 모델이 고양이와 인간의 시각적 표현 정렬에서 가장 높은 성능을 보였습니다.
자기 지도 학습이 종 간 시각적 정보 처리의 유사성을 높이는 데 기여합니다.
ViT 구조의 유도 편향이 교차 종 간 정렬에 중요한 역할을 합니다.
본 연구는 교차 종 시각 정보 처리에 대한 신경과학적 가설을 제시합니다.
한계점:
Windowed Transformer는 일반 ViT에 비해 성능이 낮았습니다.
CNN의 정렬 성능은 ViT에 비해 낮았습니다.
모델의 깊이에 따라 표현 기하학의 차이가 발생합니다.
👍