본 논문은 기존의 비전 모델들이 주로 국소적인 질감 정보에 의존하여 취약하고 조합적이지 못한 특징을 생성하는 반면, 인간은 국소적인 질감 정보와 객체 부분의 구성 모두를 기반으로 객체를 인식한다는 점을 지적합니다. 기존의 형태 대 질감 편향 연구는 형태와 질감 표현을 대립적으로 비교하여 질감에 대한 상대적 형태를 측정하는 데 그쳤으며, 모델(및 인간)이 두 유형의 단서를 동시에 활용할 수 있다는 가능성과 두 유형의 표현의 절대적 품질을 간과했습니다. 따라서 본 논문에서는 형태 평가를 구성 능력의 절대적 문제로 재구성하고, Configural Shape Score (CSS)를 통해 이를 측정합니다. CSS는 국소적 질감은 유지하면서 전역적 부분 배열을 바꿔 다른 객체 범주를 묘사하는 Object-Anagram 쌍의 이미지를 모두 인식하는 능력을 측정합니다. 86개의 합성곱, 트랜스포머, 하이브리드 모델에 걸쳐 CSS는 광범위한 구성 민감도를 밝혀냈으며, DINOv2, SigLIP2, EVA-CLIP과 같은 완전 자기 지도 학습 및 언어 정렬 트랜스포머가 CSS 스펙트럼의 최상위를 차지했습니다. 기계적 조사를 통해 고 CSS 네트워크는 장거리 상호 작용에 의존한다는 것을 밝혔으며, 반경 제어 어텐션 마스크는 성능을 없애고 독특한 U자형 통합 프로필을 보여주며, 표상 유사성 분석은 국소적에서 전역적 코딩으로의 중간 깊이 전환을 보여줍니다. BagNet 제어는 우연적인 수준에 머물러 "경계 해킹" 전략을 배제합니다. 마지막으로, 구성 형태 점수는 다른 형태 의존적 평가도 예측함을 보여줍니다. 전반적으로, 진정으로 강력하고 일반화 가능하며 인간과 같은 비전 시스템으로 가는 길은 형태와 질감 사이의 인위적인 선택을 강요하는 것이 아니라 국소적 질감과 전역적 구성 형태를 원활하게 통합하는 아키텍처 및 학습 프레임워크에 있을 수 있다고 제안합니다.