Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Investigating Fine- and Coarse-grained Structural Correspondences Between Deep Neural Networks and Human Object Image Similarity Judgments Using Unsupervised Alignment

Created by
  • Haebom

저자

Soh Takahashi, Masaru Sasaki, Ken Takeda, Masafumi Oizumi

개요

본 논문은 인간이 물체의 내적 표상을 획득하는 학습 메커니즘을 조사하기 위해 심층 신경망(DNN)을 활용합니다. 기존 연구들은 다양한 학습 패러다임(지도 학습, 자기 지도 학습, CLIP 등)으로 훈련된 모델들이 인간과 유사한 표상을 획득한다는 것을 보여주었지만, 그 유사성이 어느 정도의 세밀함까지 확장되는지는 불분명했습니다. 본 연구는 Gromov-Wasserstein 최적 수송 기반의 비지도 정렬 방법을 사용하여 인간과 모델의 물체 표상을 세분화된 수준과 조잡한 수준 모두에서 비교합니다. THINGS 데이터셋의 1,854개 물체에 대한 인간의 유사성 판단을 사용하여 CLIP으로 훈련된 모델이 인간의 물체 표상과 세분화된 수준과 조잡한 수준 모두에서 강력한 매칭을 달성한다는 것을 발견했습니다. 반면 자기 지도 학습 모델은 세분화된 수준과 조잡한 수준 모두에서 제한적인 매칭을 보였지만, 여전히 인간의 조잡한 범주 구조를 반영하는 물체 클러스터를 형성했습니다. 이 결과는 정확한 물체 표상을 획득하는 데 있어 언어 정보의 역할과 조잡한 범주 구조를 포착하는 자기 지도 학습의 잠재력에 대한 새로운 통찰력을 제공합니다.

시사점, 한계점

시사점:
CLIP으로 훈련된 모델이 인간의 물체 표상과 세분화된 수준 및 조잡한 수준 모두에서 높은 유사성을 보임을 규명.
언어 정보가 정확한 물체 표상 획득에 중요한 역할을 한다는 것을 시사.
자기 지도 학습이 조잡한 범주 구조를 포착하는 데 효과적임을 보여줌.
Gromov-Wasserstein 최적 수송 기반의 비지도 정렬 방법이 인간과 모델 표상 비교에 유용함을 제시.
한계점:
사용된 데이터셋(THINGS)의 한계. 다양한 데이터셋에 대한 추가 연구 필요.
Gromov-Wasserstein 최적 수송 방법의 계산 비용이 높을 수 있음.
자기 지도 학습 모델의 성능 향상을 위한 추가적인 연구 필요.
인간의 인지 과정에 대한 완벽한 이해는 여전히 제한적이며, 모델과 인간 표상 간의 차이에 대한 추가 분석 필요.
👍