본 논문은 객체 바인딩 능력이 사전 훈련된 Vision Transformers (ViTs)에서 자연스럽게 나타나는지 여부를 탐구한다. 특히, ViTs가 두 패치가 동일한 객체에 속하는지 나타내는 "IsSameObject" 속성을 표현할 수 있는지 확인하고, 이를 유사성 프로브를 사용하여 디코딩한다. 연구 결과, 자기 지도 학습된 ViTs (DINO, MAE, CLIP)에서 높은 정확도로 IsSameObject를 디코딩할 수 있었지만, ImageNet으로 지도 학습된 모델에서는 약하게 나타났다. 또한, IsSameObject 신호가 주의를 유도하고, 이 기능을 제거하면 다운스트림 성능이 저하되는 것을 확인했다. 이는 ViTs가 객체 바인딩 능력을 갖추고 있으며, 사전 훈련 목표에 따라 자연스럽게 습득될 수 있음을 시사한다.