Sign In

Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts

Created by
  • Haebom
Category
Empty

저자

Xiangnan Chen, Yuancheng Fang, Qian Xiao, Juncheng Li, Jun Lin, Siliang Tang, Yi Yang, Yueting Zhuang

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 시각-의미 이해 능력 평가에 있어 기존 벤치마크의 한계를 지적하고, 이를 극복하기 위한 새로운 벤치마크인 Chart-HQA를 제시합니다. 기존 벤치마크가 MLLM의 매개변수 기억에 의존한 답변을 평가하는 반면, Chart-HQA는 가정을 설정한 가정적 질문응답(HQA) 과제를 통해 반사실적 추론 능력을 평가합니다. 본 논문에서는 또한, 인간-AI 상호작용 데이터 합성 접근 방식인 HAI를 소개하여 효율적으로 고품질의 HQA 데이터를 생성하고 Chart-HQA 벤치마크를 구축했습니다. 18개의 다양한 MLLM을 평가한 결과, 현존 모델들이 HQA 과제에서 일반화 및 균형 잡힌 추론 능력에 어려움을 겪는다는 것을 발견했습니다.

시사점, 한계점

시사점:
MLLM의 시각-의미 이해 능력 평가를 위한 새로운 벤치마크인 Chart-HQA 제시
MLLM의 반사실적 추론 능력 평가의 중요성 강조
효율적인 데이터 합성 방법인 HAI 제안
현존 MLLM의 일반화 및 균형 잡힌 추론 능력의 한계를 밝힘
한계점:
Chart-HQA 벤치마크가 특정 유형의 차트와 질문에 집중되어 있을 가능성
HAI를 통한 데이터 합성 과정에서 인간 전문가의 개입으로 인한 주관성 및 편향 가능성
평가에 사용된 MLLM의 종류 및 크기에 따라 결과가 제한적으로 해석될 수 있음
👍