본 논문은 다중 모달 대규모 언어 모델(MLLM)의 객체 계수 능력 부족 문제를 다룹니다. 기존 벤치마크의 한계(낮은 객체 밀도, 특정 시각 영역 제한)를 지적하며, 현실적인 조건에서 MLLM의 객체 계수 성능을 평가하기 위한 새로운 벤치마크인 CountQA를 제시합니다. CountQA는 높은 객체 밀도, 클러터, 폐색이 있는 실제 이미지를 포함하는 1,500개 이상의 질문-답변 쌍으로 구성됩니다. 15개의 주요 MLLM을 CountQA로 평가한 결과, 최고 성능 모델의 정확도는 42.9%에 불과했으며 객체 수가 증가할수록 성능이 저하되는 것을 확인했습니다. CountQA는 MLLM의 객체 계수 능력을 진단하고 개선하기 위한 전용 벤치마크를 제공하여, 기술적으로 유창할 뿐 아니라 수치적으로 정확하고 공간적으로 인식하는 차세대 MLLM 개발을 위한 기반을 마련합니다.