Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

InfoChartQA: A Benchmark for Multimodal Question Answering on Infographic Charts

Created by
  • Haebom

저자

Minzhi Lin, Tianchi Xie, Mengchen Liu, Yilin Ye, Changjian Chen, Shixia Liu

개요

InfoChartQA는 다양한 시각적 요소(pictogram, icon 등)를 포함한 인포그래픽 차트 이해 능력을 평가하기 위한 새로운 벤치마크입니다. 기존의 시각적 질의응답 벤치마크가 인포그래픽 차트의 시각적 요소를 충분히 고려하지 못하는 점을 보완하기 위해, 동일한 데이터를 바탕으로 시각적 표현 방식만 다른 인포그래픽 차트와 일반 차트 5,642쌍을 제공합니다. 각 차트 쌍에는 시각적 요소와 의도를 평가하기 위한 질문들이 포함되어 있습니다. 20개의 다중 모달 대규모 언어 모델(MLLM)을 평가한 결과, 특히 은유와 관련된 시각적 요소 기반 질문에서 인포그래픽 차트에 대한 성능 저하가 크게 나타났습니다. InfoChartQA는 쌍으로 구성된 차트를 통해 정밀한 오류 분석과 ablation study를 가능하게 하여, 인포그래픽 차트 이해 분야에서 MLLM 발전을 위한 새로운 가능성을 제시합니다. GitHub(https://github.com/CoolDawnAnt/InfoChartQA)에서 공개됩니다.

시사점, 한계점

시사점:
인포그래픽 차트 이해 능력 평가를 위한 새로운 벤치마크 InfoChartQA 제시.
기존 MLLM의 인포그래픽 차트 이해 능력의 한계를 명확히 제시 (특히 시각적 요소, 은유 관련 질문에서 성능 저하).
쌍으로 된 차트 데이터를 통해 정밀한 오류 분석 및 ablation study 가능.
MLLM의 인포그래픽 차트 이해 능력 향상을 위한 새로운 연구 방향 제시.
InfoChartQA 데이터셋 공개를 통한 연구 활성화.
한계점:
현재 벤치마크에 포함된 MLLM의 종류 및 수 제한.
다양한 유형의 인포그래픽 차트 및 시각적 요소에 대한 포괄성이 아직 충분하지 않을 수 있음.
인포그래픽 차트의 시각적 요소 해석의 복잡성을 완벽하게 반영하지 못할 가능성.
👍