Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts
Created by
Haebom
Category
Empty
저자
Xiangnan Chen, Yuancheng Fang, Qian Xiao, Juncheng Li, Jun Lin, Siliang Tang, Yi Yang, Yueting Zhuang
개요
본 논문은 다중 모달 대규모 언어 모델(MLLM)의 시각-의미 이해 능력 평가에 있어 기존 벤치마크의 한계를 지적하고, 이를 극복하기 위한 새로운 벤치마크인 Chart-HQA를 제시합니다. 기존 벤치마크가 MLLM의 매개변수 기억에 의존한 답변을 평가하는 반면, Chart-HQA는 가정을 설정한 가정적 질문응답(HQA) 과제를 통해 반사실적 추론 능력을 평가합니다. 본 논문에서는 또한, 인간-AI 상호작용 데이터 합성 접근 방식인 HAI를 소개하여 효율적으로 고품질의 HQA 데이터를 생성하고 Chart-HQA 벤치마크를 구축했습니다. 18개의 다양한 MLLM을 평가한 결과, 현존 모델들이 HQA 과제에서 일반화 및 균형 잡힌 추론 능력에 어려움을 겪는다는 것을 발견했습니다.