Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HueManity: Probing Fine-Grained Visual Perception in MLLMs

Created by
  • Haebom

저자

Rynaa Grover, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Nilay Pande

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 미묘한 지각 과제 수행 능력의 한계를 다룹니다. Ishihara 검사 스타일의 점 패턴에 두 글자의 영숫자 문자열이 포함된 83,850개의 이미지로 구성된 HueManity라는 새로운 벤치마크를 제시합니다. 9개의 최첨단 MLLM을 HueManity에서 평가한 결과, 사람과 기존 컴퓨터 비전 기준 모델에 비해 상당한 성능 저하를 보였습니다. 최고 성능의 MLLM은 숫자 기반 '쉬운' 과제에서 33.6%, 영숫자 기반 '어려운' 과제에서 3%의 정확도를 달성한 반면, 사람 참가자는 거의 완벽한 점수(100% 및 95.6%)를 달성했고, 미세 조정된 ResNet50 모델은 96.5% 및 94.5%의 정확도를 달성했습니다. 이는 현재 MLLM의 시각적 능력에 심각한 차이가 있음을 강조합니다. 또한 MLLM의 지각 격차에 기여하는 잠재적인 아키텍처 및 훈련 패러다임 요인을 분석하고, HueManity 데이터셋과 코드를 공개하여 MLLM의 지각적 견고성 향상에 대한 추가 연구를 촉진합니다.

시사점, 한계점

시사점:
MLLM의 고차원 시각적 추론 능력과 달리, 미묘한 지각 과제 수행 능력의 한계를 명확히 보여줌.
MLLM의 시각적 지각 능력 향상을 위한 연구 방향 제시.
HueManity 데이터셋 공개를 통한 MLLM 연구 활성화.
한계점:
HueManity 벤치마크는 특정 유형의 시각적 과제에 집중되어 있어 MLLM의 전반적인 시각적 능력을 완전히 평가하지 못할 수 있음.
분석된 MLLM의 아키텍처 및 훈련 패러다임의 다양성이 제한적일 수 있음.
👍