Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering

Created by
  • Haebom

저자

Zixin Chen, Sicheng Song, Kashun Shum, Yanna Lin, Rui Sheng, Huamin Qu

개요

본 논문은 차트를 조작하여 특정 주장을 뒷받침하는 오해의 소지가 있는 시각자료가 인식을 왜곡하고 잘못된 결론으로 이어질 수 있다는 문제를 다룹니다. 기존의 다중 모달 대규모 언어 모델(MLLM)이 차트를 이해하는 능력은 뛰어나지만, 오해의 소지가 있는 차트를 탐지하고 해석하는 능력은 아직 연구되지 않았습니다. 따라서 본 연구는 오해의 소지가 있는 차트 추론에 대한 MLLM의 성능을 평가하기 위해 대규모 다중 모달 데이터셋인 Misleading ChartQA 벤치마크를 제시합니다. 이 데이터셋은 21가지 유형의 오해 유발 요소와 10가지 차트 유형을 포함하는 3,026개의 예시로 구성되며, 표준화된 차트 코드, CSV 데이터, 객관식 질문, 라벨이 지정된 설명으로 구성되어 있습니다. 24개의 최첨단 MLLM을 벤치마킹하여 오해 유발 요소 유형과 차트 형식에 따른 성능을 분석하고, 모델 정확도를 향상시키는 새로운 영역 인식 추론 파이프라인을 제안합니다. 이 연구는 책임감 있는 시각적 의사소통의 요구에 부합하는 강력하고 신뢰할 수 있는 MLLM을 개발하기 위한 기반을 마련합니다.

시사점, 한계점

시사점:
오해의 소지가 있는 차트를 탐지하고 해석하는 MLLM의 성능 평가를 위한 대규모 다중 모달 데이터셋(Misleading ChartQA)을 제시.
다양한 유형의 오해 유발 요소와 차트 형식에 대한 MLLM의 성능 분석을 제공.
모델 정확도 향상을 위한 새로운 영역 인식 추론 파이프라인 제안.
책임감 있는 시각적 의사소통을 위한 강력하고 신뢰할 수 있는 MLLM 개발에 기여.
한계점:
Misleading ChartQA 데이터셋의 범위가 모든 유형의 오해 유발 요소와 차트 형식을 완벽하게 포괄하지 못할 수 있음.
제안된 영역 인식 추론 파이프라인의 일반화 성능에 대한 추가 연구가 필요.
실제 세계의 복잡한 시각 자료에 대한 MLLM의 적용 가능성에 대한 추가 연구가 필요.
👍