Sign In

Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts

Created by
  • Haebom
Category
Empty

저자

Xiangnan Chen, Yuancheng Fang, Qian Xiao, Juncheng Li, Jun Lin, Siliang Tang, Yi Yang, Yueting Zhuang

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 시각-의미 이해 능력 평가에 있어 기존 벤치마크의 한계를 지적하고, 이를 해결하기 위해 새로운 벤치마크를 제시합니다. 기존 벤치마크는 MLLM이 차트 내용을 실제로 이해하는 것이 아니라 매개변수 메모리에 의존하여 질문에 답하는 경향을 간과합니다. 이에 논문에서는 차트 내용을 기반으로 반사실적 추론을 수행하도록 유도하는 가정을 질문에 부여하는 새로운 차트 가정 질문 답변(HQA) 과제를 제안합니다. 또한, LLMs의 효율적인 텍스트 편집 기능과 인간 전문가 지식을 활용하여 다양하고 고품질의 HQA 데이터를 저렴하게 생성하는 인간-AI 상호작용 데이터 합성 접근 방식인 HAI를 소개하고, 이를 사용하여 공개 데이터 소스에서 생성된 Chart-HQA라는 까다로운 벤치마크를 구축합니다. 18개의 다양한 크기의 MLLM을 평가한 결과, 현재 모델은 HQA 과제에서 상당한 일반화 문제와 불균형적인 추론 성능을 보이는 것으로 나타났습니다.

시사점, 한계점

시사점:
MLLM의 시각-의미 이해 능력 평가에 있어 기존 벤치마크의 한계를 명확히 제시하고, 반사실적 추론 능력 평가를 위한 새로운 HQA 과제를 제안함으로써 MLLM의 진정한 이해 능력을 평가할 수 있는 새로운 기준을 마련했습니다.
HAI라는 효율적인 데이터 합성 방법을 통해 대규모 고품질 데이터셋을 저렴하게 구축하는 방법을 제시했습니다.
다양한 크기의 18개 MLLM에 대한 실험 결과를 통해 현재 MLLM의 한계점과 향후 연구 방향을 제시했습니다.
한계점:
Chart-HQA 벤치마크가 공개 데이터 소스를 기반으로 생성되었으므로, 데이터의 편향성 문제가 존재할 가능성이 있습니다.
HAI 방법의 인간 전문가 의존도가 높아, 데이터 생성 과정의 주관성과 비효율성이 발생할 수 있습니다.
본 논문에서 제시된 HQA 과제가 모든 유형의 시각-의미 이해 과제에 적용 가능한지에 대한 추가적인 연구가 필요합니다.
👍