Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mind the (Language) Gap: Towards Probing Numerical and Cross-Lingual Limits of LVLMs

Created by
  • Haebom

저자

Somraj Gautam, Abhirama Subramanyam Penamakuri, Abhishek Bhandari, Gaurav Harit

개요

MMCRICBENCH-3K는 크리켓 점수표에 대한 시각적 질문 응답(VQA) 벤치마크로, 반정형 표 형태 이미지에 대한 복잡한 수치 및 교차 언어 추론 능력을 평가하기 위해 설계되었습니다. ODI, T20, Test 형식의 1,463개 합성 점수표 이미지와 1,500개의 영어 QA 쌍으로 구성됩니다. 영어 점수표를 포함하는 MMCRICBENCH-E-1.5K와 시각적으로 유사한 힌디어 점수표를 포함하는 MMCRICBENCH-H-1.5K의 두 하위 집합으로 나뉩니다. 모든 질문과 답변은 영어로 유지되어 제어된 교차 스크립트 평가가 가능합니다. 이 과제는 구조화된 수치 데이터, 다중 이미지 컨텍스트 및 암시적 도메인 지식에 대한 추론을 요구합니다. 실험 결과, GPT-4o 및 Qwen2.5VL과 같은 최첨단 LVLMs조차도 영어 하위 집합에서 어려움을 겪고 힌디어 하위 집합에서는 성능이 더욱 저하되는 것을 보여줍니다. 이는 구조 인식 시각적 텍스트 이해, 수치 추론 및 교차 언어 일반화의 주요 한계를 보여줍니다. 데이터 세트는 Hugging Face(https://huggingface.co/datasets/DIALab/MMCricBench)를 통해 공개적으로 제공됩니다.

시사점, 한계점

시사점: 반정형 표 형태 이미지에 대한 수치 및 교차 언어 추론 능력을 평가하는 새로운 벤치마크 MMCRICBENCH-3K를 제시합니다. 최첨단 LVLMs의 구조 인식 시각적 텍스트 이해, 수치 추론 및 교차 언어 일반화 능력의 한계를 드러냅니다. 공개적으로 이용 가능한 데이터셋을 통해 관련 연구를 촉진합니다.
한계점: 데이터셋이 합성 데이터를 기반으로 생성되었다는 점. 현재 영어와 힌디어 두 언어만 지원한다는 점. 크리켓 점수표라는 특정 도메인에 국한되어 일반화 가능성에 대한 추가 연구가 필요하다는 점.
👍