본 논문은 다중 모드 대규모 언어 모델(MLLM)의 미묘한 지각 과제 수행 능력의 제한점을 다룹니다. Ishihara 검사 스타일의 점 패턴에 알파벳 숫자 문자열이 포함된 83,850개 이미지로 구성된 HueManity 벤치마크를 제시하여 MLLM의 시각적 지각 능력을 평가합니다. 9개의 최첨단 MLLM을 HueManity에서 평가한 결과, 사람과 기존 컴퓨터 비전 기준 모델과 비교하여 성능이 현저히 낮은 것으로 나타났습니다. 최고 성능 MLLM은 숫자 기반 '쉬운' 과제에서 33.6%, 알파벳 숫자 기반 '어려운' 과제에서 3%의 정확도를 달성한 반면, 사람 참가자는 거의 완벽한 점수(100%와 95.6%)를 달성했고, 미세 조정된 ResNet50 모델은 96.5%와 94.5%의 정확도에 도달했습니다. 이는 현재 MLLM의 시각적 능력에 심각한 차이가 있음을 강조합니다. 본 논문에서는 MLLM의 지각 격차에 기여하는 잠재적인 아키텍처 및 훈련 패러다임 요인을 추가로 분석하고, 향후 연구를 위해 HueManity 데이터셋과 코드를 공개합니다.