[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HueManity: Probing Fine-Grained Visual Perception in MLLMs

Created by
  • Haebom

저자

Rynaa Grover, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Nilay Pande

개요

본 논문은 다중 모드 대규모 언어 모델(MLLM)의 미묘한 지각 과제 수행 능력의 제한점을 다룹니다. Ishihara 검사 스타일의 점 패턴에 알파벳 숫자 문자열이 포함된 83,850개 이미지로 구성된 HueManity 벤치마크를 제시하여 MLLM의 시각적 지각 능력을 평가합니다. 9개의 최첨단 MLLM을 HueManity에서 평가한 결과, 사람과 기존 컴퓨터 비전 기준 모델과 비교하여 성능이 현저히 낮은 것으로 나타났습니다. 최고 성능 MLLM은 숫자 기반 '쉬운' 과제에서 33.6%, 알파벳 숫자 기반 '어려운' 과제에서 3%의 정확도를 달성한 반면, 사람 참가자는 거의 완벽한 점수(100%와 95.6%)를 달성했고, 미세 조정된 ResNet50 모델은 96.5%와 94.5%의 정확도에 도달했습니다. 이는 현재 MLLM의 시각적 능력에 심각한 차이가 있음을 강조합니다. 본 논문에서는 MLLM의 지각 격차에 기여하는 잠재적인 아키텍처 및 훈련 패러다임 요인을 추가로 분석하고, 향후 연구를 위해 HueManity 데이터셋과 코드를 공개합니다.

시사점, 한계점

시사점:
현재 MLLM의 시각적 지각 능력에 대한 심각한 한계를 제시합니다.
MLLM의 시각적 지각 능력 향상을 위한 새로운 벤치마크(HueManity)를 제공합니다.
MLLM 아키텍처 및 훈련 방식 개선에 대한 연구 방향을 제시합니다.
공개된 데이터셋과 코드를 통해 MLLM의 지각 강건성 향상 연구를 촉진합니다.
한계점:
HueManity 벤치마크는 특정 유형의 시각적 지각 과제(Ishihara 검사 유사)에 집중되어 있어 일반화 가능성에 제한이 있을 수 있습니다.
분석된 MLLM의 아키텍처 및 훈련 방식에 대한 탐구가 더욱 심화될 필요가 있습니다.
제시된 분석이 특정 MLLM에 국한되어 다른 모델로의 일반화 가능성을 검증해야 합니다.
👍