Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

InfoChartQA: A Benchmark for Multimodal Question Answering on Infographic Charts

Created by
  • Haebom

저자

Minzhi Lin, Tianchi Xie, Mengchen Liu, Yilin Ye, Changjian Chen, Shixia Liu

개요

InfoChartQA는 다양한 시각적 요소(예: 그림, 아이콘)를 포함한 정보 그래프 이해를 위한 새로운 벤치마크입니다. 기존의 시각적 질의응답 벤치마크의 한계를 극복하기 위해, 동일한 데이터를 기반으로 시각적 표현만 다른 정보 그래프와 일반 그래프 5,642쌍의 데이터셋을 구축하고, 시각적 요소에 기반한 질문들을 포함했습니다. 20개의 다중 모달 대규모 언어 모델(MLLM)을 평가한 결과, 특히 은유와 관련된 시각적 요소 기반 질문에서 정보 그래프에 대한 성능 저하가 크게 나타났습니다. 이 벤치마크는 정보 그래프 이해에 있어 MLLM의 성능 향상을 위한 새로운 기회를 제공합니다. 데이터셋은 https://github.com/CoolDawnAnt/InfoChartQA 에서 공개됩니다.

시사점, 한계점

시사점:
정보 그래프 이해를 위한 새로운 벤치마크인 InfoChartQA를 제시.
기존 MLLM의 정보 그래프 이해 능력의 한계를 명확히 제시.
시각적 요소 기반 질문을 통해 MLLM의 시각적 추론 능력 평가 가능.
짝을 이룬 정보 그래프와 일반 그래프를 통해 정밀한 오류 분석 및 ablation study 가능.
MLLM의 정보 그래프 이해 능력 향상을 위한 새로운 연구 방향 제시.
한계점:
현재 벤치마크에 포함된 정보 그래프의 다양성 및 복잡도에 대한 추가적인 검토 필요.
다양한 유형의 시각적 요소와 질문 유형에 대한 확장 필요.
비주얼 요소를 이용한 은유적 표현의 이해에 대한 MLLM의 성능 향상을 위한 구체적인 방법론 제시 부족.
👍