본 논문은 Vision-Language Model (VLM)이 이미지와 텍스트를 이해하고 연관짓는 과정을, 특히 3D 객체와 그에 대한 설명 간의 연관성에 초점을 맞춰 연구합니다. Feng and Steinhardt가 제안한 LLM의 Binding ID 메커니즘을 바탕으로, VLM에서 객체의 이미지 토큰과 텍스트 참조가 동일한 Binding ID를 할당받는지 실험적으로 확인합니다. 합성 데이터셋과 과제를 사용하여, VLM이 객체의 이미지 토큰과 텍스트 참조에 고유한 Binding ID를 할당하여 문맥 내 연관성을 구축함을 보여줍니다.