본 논문은 최신 비전 모델들이 게슈탈트 원리(closure, proximity, figure-ground assignment 등)에 따라 국소적 단서들을 일관된 전역적 형태로 구성하는 인간 시각의 능력을 어느 정도 보이는지, 그리고 어떤 훈련 조건 하에서 이러한 능력이 나타나는지 조사합니다. 마스크드 오토인코딩(MAE)으로 훈련된 비전 트랜스포머(ViT)가 착시 윤곽 완성, 볼록성 선호, 동적인 피규어-그라운드 분리 등 게슈탈트 법칙과 일치하는 활성화 패턴을 보인다는 것을 발견했습니다. 전역적 의존성 모델링이 게슈탈트와 유사한 구성에 필요하다고 가정하고, 국소적 텍스처는 유지하면서 전역적 공간적 섭동에 대한 민감도를 평가하는 왜곡된 공간 관계 테스트벤치(DiSRT)를 도입했습니다. DiSRT를 사용하여 자기지도 학습 모델(예: MAE, CLIP)이 지도 학습 기준 모델보다 성능이 우수하고, 때로는 인간의 성능을 능가하기도 함을 보였습니다. MAE로 훈련된 ConvNeXt 모델도 게슈탈트와 호환되는 표현을 보여주어, 어텐션 아키텍처 없이도 이러한 민감도가 나타날 수 있음을 시사합니다. 그러나 분류 파인튜닝은 이러한 능력을 저하시키며, 생물학적 시각에서 영감을 얻어 Top-K 활성화 스파스니스 메커니즘이 전역적 민감도를 복원할 수 있음을 보였습니다. 결론적으로 게슈탈트와 유사한 지각을 촉진하거나 억제하는 훈련 조건을 확인하고, DiSRT를 다양한 모델에서 전역 구조 민감도를 진단하는 도구로 제시합니다.