최근 시각-언어 모델(VLM)은 시각적 이해 분야에서 괄목할 만한 발전을 이루었지만, 특정 시각적 과제(예: 개수 세기, 관계적 추론)에서는 인간의 능력에 미치지 못한다. 본 연구에서는 VLM의 근본적인 한계를 이해하기 위해 인지 과학 방법론을 채택하여 지각, 주의력, 기억력과 같은 핵심 인지 축을 따라 VLM의 성능을 분석했다. GPT-4o를 포함한 최첨단 VLM을 평가한 결과, 고급 모델은 일부 과제(예: 범주 식별)에서 최고 성능에 근접했지만, 공간적 이해나 선택적 주의력이 필요한 과제에서는 상당한 격차가 존재했다. 실패 원인과 개선 방법을 탐구하기 위해 시각-텍스트 분리 분석을 수행한 결과, 직접적인 시각적 추론에 어려움을 겪는 모델이 자체 생성 텍스트 캡션에 대한 추론 시 현저한 개선을 보였다. 또한, 복합 시각적 추론 과제에 대한 타겟 파인튜닝의 가능성을 보여주었으며, 소규모 VLM의 파인튜닝이 핵심 인지 능력을 크게 향상시킬 수 있음을 입증했다.