Sign In

Does Object Binding Naturally Emerge in Large Pretrained Vision Transformers?

Created by
  • Haebom
Category
Empty

저자

Yihao Li, Saeed Salehi, Lyle Ungar, Konrad P. Kording

개요

본 논문은 객체 바인딩 능력이 사전 훈련된 Vision Transformers (ViTs)에서 자연스럽게 나타나는지 여부를 탐구한다. 특히, ViTs가 두 패치가 동일한 객체에 속하는지 나타내는 "IsSameObject" 속성을 표현할 수 있는지 확인하고, 이를 유사성 프로브를 사용하여 디코딩한다. 연구 결과, 자기 지도 학습된 ViTs (DINO, MAE, CLIP)에서 높은 정확도로 IsSameObject를 디코딩할 수 있었지만, ImageNet으로 지도 학습된 모델에서는 약하게 나타났다. 또한, IsSameObject 신호가 주의를 유도하고, 이 기능을 제거하면 다운스트림 성능이 저하되는 것을 확인했다. 이는 ViTs가 객체 바인딩 능력을 갖추고 있으며, 사전 훈련 목표에 따라 자연스럽게 습득될 수 있음을 시사한다.

시사점, 한계점

시사점:
ViTs가 객체 바인딩 능력을 갖추고 있음을 보여줌.
자기 지도 학습이 객체 바인딩 능력의 획득에 중요함을 제시.
IsSameObject 신호가 주의를 유도하고 다운스트림 성능에 기여함을 밝힘.
연결주의 시스템에서 "어떤 부분이 함께 속하는지"에 대한 상징적 지식이 자연스럽게 나타날 수 있음을 보여줌.
한계점:
객체 바인딩 능력의 구체적인 메커니즘을 완전히 밝히지는 않음.
다양한 사전 훈련 방법 및 아키텍처에 대한 일반화 가능성을 추가로 검증해야 함.
IsSameObject 신호의 활용 방법에 대한 더 깊이 있는 탐구가 필요함.
👍