본 논문은 인간이 물체의 내적 표상을 획득하는 학습 메커니즘을 조사하기 위해 심층 신경망(DNN)을 활용합니다. 기존 연구들은 다양한 학습 패러다임(지도 학습, 자기 지도 학습, CLIP 등)으로 훈련된 모델들이 인간과 유사한 표상을 획득한다는 것을 보여주었지만, 그 유사성이 어느 정도의 세밀함까지 확장되는지는 불분명했습니다. 본 연구는 Gromov-Wasserstein 최적 수송 기반의 비지도 정렬 방법을 사용하여 인간과 모델의 물체 표상을 세분화된 수준과 조잡한 수준 모두에서 비교합니다. THINGS 데이터셋의 1,854개 물체에 대한 인간의 유사성 판단을 사용하여 CLIP으로 훈련된 모델이 인간의 물체 표상과 세분화된 수준과 조잡한 수준 모두에서 강력한 매칭을 달성한다는 것을 발견했습니다. 반면 자기 지도 학습 모델은 세분화된 수준과 조잡한 수준 모두에서 제한적인 매칭을 보였지만, 여전히 인간의 조잡한 범주 구조를 반영하는 물체 클러스터를 형성했습니다. 이 결과는 정확한 물체 표상을 획득하는 데 있어 언어 정보의 역할과 조잡한 범주 구조를 포착하는 자기 지도 학습의 잠재력에 대한 새로운 통찰력을 제공합니다.