본 논문은 다중 모달 대규모 언어 모델(MLLM)의 미묘한 지각 과제 수행 능력의 한계를 다룹니다. Ishihara 검사 스타일의 점 패턴에 두 글자의 영숫자 문자열이 포함된 83,850개의 이미지로 구성된 HueManity라는 새로운 벤치마크를 제시합니다. 9개의 최첨단 MLLM을 HueManity에서 평가한 결과, 사람과 기존 컴퓨터 비전 기준 모델에 비해 상당한 성능 저하를 보였습니다. 최고 성능의 MLLM은 숫자 기반 '쉬운' 과제에서 33.6%, 영숫자 기반 '어려운' 과제에서 3%의 정확도를 달성한 반면, 사람 참가자는 거의 완벽한 점수(100% 및 95.6%)를 달성했고, 미세 조정된 ResNet50 모델은 96.5% 및 94.5%의 정확도를 달성했습니다. 이는 현재 MLLM의 시각적 능력에 심각한 차이가 있음을 강조합니다. 또한 MLLM의 지각 격차에 기여하는 잠재적인 아키텍처 및 훈련 패러다임 요인을 분석하고, HueManity 데이터셋과 코드를 공개하여 MLLM의 지각적 견고성 향상에 대한 추가 연구를 촉진합니다.