InfoChartQA: A Benchmark for Multimodal Question Answering on Infographic Charts
Created by
Haebom
저자
Minzhi Lin, Tianchi Xie, Mengchen Liu, Yilin Ye, Changjian Chen, Shixia Liu
개요
InfoChartQA는 다양한 시각적 요소(pictogram, icon 등)를 포함한 인포그래픽 차트 이해 능력을 평가하기 위한 새로운 벤치마크입니다. 기존의 시각적 질의응답 벤치마크가 인포그래픽 차트의 시각적 요소를 충분히 고려하지 못하는 점을 보완하기 위해, 동일한 데이터를 바탕으로 시각적 표현 방식만 다른 인포그래픽 차트와 일반 차트 5,642쌍을 제공합니다. 각 차트 쌍에는 시각적 요소와 의도를 평가하기 위한 질문들이 포함되어 있습니다. 20개의 다중 모달 대규모 언어 모델(MLLM)을 평가한 결과, 특히 은유와 관련된 시각적 요소 기반 질문에서 인포그래픽 차트에 대한 성능 저하가 크게 나타났습니다. InfoChartQA는 쌍으로 구성된 차트를 통해 정밀한 오류 분석과 ablation study를 가능하게 하여, 인포그래픽 차트 이해 분야에서 MLLM 발전을 위한 새로운 가능성을 제시합니다. GitHub(https://github.com/CoolDawnAnt/InfoChartQA)에서 공개됩니다.
시사점, 한계점
•
시사점:
◦
인포그래픽 차트 이해 능력 평가를 위한 새로운 벤치마크 InfoChartQA 제시.
◦
기존 MLLM의 인포그래픽 차트 이해 능력의 한계를 명확히 제시 (특히 시각적 요소, 은유 관련 질문에서 성능 저하).
◦
쌍으로 된 차트 데이터를 통해 정밀한 오류 분석 및 ablation study 가능.
◦
MLLM의 인포그래픽 차트 이해 능력 향상을 위한 새로운 연구 방향 제시.
◦
InfoChartQA 데이터셋 공개를 통한 연구 활성화.
•
한계점:
◦
현재 벤치마크에 포함된 MLLM의 종류 및 수 제한.
◦
다양한 유형의 인포그래픽 차트 및 시각적 요소에 대한 포괄성이 아직 충분하지 않을 수 있음.