Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CountQA: How Well Do MLLMs Count in the Wild?

Created by
  • Haebom

저자

Jayant Sravan Tamarapalli, Rynaa Grover, Nilay Pande, Sahiti Yerramilli

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 객체 계수 능력 부족 문제를 다룹니다. 기존 벤치마크의 한계(낮은 객체 밀도, 특정 시각 영역 제한)를 지적하며, 현실적인 조건에서 MLLM의 객체 계수 성능을 평가하기 위한 새로운 벤치마크인 CountQA를 제시합니다. CountQA는 높은 객체 밀도, 클러터, 폐색이 있는 실제 이미지를 포함하는 1,500개 이상의 질문-답변 쌍으로 구성됩니다. 15개의 주요 MLLM을 CountQA로 평가한 결과, 최고 성능 모델의 정확도는 42.9%에 불과했으며 객체 수가 증가할수록 성능이 저하되는 것을 확인했습니다. CountQA는 MLLM의 객체 계수 능력을 진단하고 개선하기 위한 전용 벤치마크를 제공하여, 기술적으로 유창할 뿐 아니라 수치적으로 정확하고 공간적으로 인식하는 차세대 MLLM 개발을 위한 기반을 마련합니다.

시사점, 한계점

시사점:
현실적인 조건에서 MLLM의 객체 계수 능력 부족을 명확히 보여주는 새로운 벤치마크 CountQA를 제시.
MLLM의 객체 계수 성능 향상을 위한 연구 방향 제시.
CountQA 데이터셋과 코드 공개를 통해 후속 연구 촉진.
한계점:
CountQA 벤치마크가 아직 초기 단계이며, 더욱 다양한 시각적 상황과 객체 종류를 포함하도록 확장될 필요가 있음.
현재 평가된 MLLM의 성능이 상대적으로 낮으므로, 향후 더욱 발전된 MLLM의 성능 향상을 지속적으로 모니터링해야 함.
👍