본 논문은 기존의 시각 모델들이 주로 지역적인 텍스처 특징에 의존하여 객체를 인식하는 문제를 지적하고, 모양과 텍스처를 상호 배타적으로 평가하는 방식에서 벗어나, 두 가지 특징을 모두 활용할 수 있는 모델을 개발하는 방향을 제시한다. 이를 위해 Configural Shape Score (CSS)를 도입하여 객체 부품의 배열을 변화시킨 Object-Anagram 쌍을 인식하는 능력을 측정하고, 다양한 모델들을 평가한다. 연구 결과, DINOv2, SigLIP2, EVA-CLIP과 같은 자기 지도 학습 및 언어 정렬된 변환기 모델들이 높은 CSS 점수를 보였으며, 이러한 모델들이 장거리 상호 작용을 통해 객체를 인식한다는 것을 밝혔다.