InfoChartQA: A Benchmark for Multimodal Question Answering on Infographic Charts
Created by
Haebom
저자
Minzhi Lin, Tianchi Xie, Mengchen Liu, Yilin Ye, Changjian Chen, Shixia Liu
개요
InfoChartQA는 다양한 시각적 요소(예: 그림, 아이콘)를 포함한 정보 그래프 이해를 위한 새로운 벤치마크입니다. 기존의 시각적 질의응답 벤치마크의 한계를 극복하기 위해, 동일한 데이터를 기반으로 시각적 표현만 다른 정보 그래프와 일반 그래프 5,642쌍의 데이터셋을 구축하고, 시각적 요소에 기반한 질문들을 포함했습니다. 20개의 다중 모달 대규모 언어 모델(MLLM)을 평가한 결과, 특히 은유와 관련된 시각적 요소 기반 질문에서 정보 그래프에 대한 성능 저하가 크게 나타났습니다. 이 벤치마크는 정보 그래프 이해에 있어 MLLM의 성능 향상을 위한 새로운 기회를 제공합니다. 데이터셋은 https://github.com/CoolDawnAnt/InfoChartQA 에서 공개됩니다.