본 논문은 가려진 물체에 대한 추론 능력을 평가하기 위해 새로운 과제인 CAPTURe(Counting Amodally for Patterns Through Unseen REgions)를 제시합니다. CAPTURe는 가리개 뒤에 숨겨진 패턴을 추론하여 물체를 세는 것을 요구하며, 시각적 패턴 인식과 추론 능력 모두를 평가합니다. 실제 물체 이미지를 사용한 CAPTURe-real과 생성된 이미지를 사용한 CAPTURe-synthetic 두 가지 버전으로 구성됩니다. GPT-4o, Intern-VL2, Molmo, Qwen2-VL 등 네 가지 강력한 VLM을 평가한 결과, 가려진 패턴과 가려지지 않은 패턴 모두에서 성능이 저조했으며, 특히 가려진 경우 성능이 더욱 저하되는 것을 확인했습니다. 이는 VLM이 보이지 않는 공간적 관계를 추론하는 데 어려움을 겪는다는 것을 시사합니다. 반면, 인간은 CAPTURe에서 매우 적은 오류율을 보였습니다. 가려진 물체 위치에 대한 추가 정보를 제공하면 성능이 향상되는 것으로 나타났는데, 이는 모델의 오류가 가려짐을 처리하지 못하는 능력과 이미지 내에서 세는 데 어려움 모두에서 기인함을 보여줍니다.