Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ChartPoint: Guiding MLLMs with Grounding Reflection for Chart Reasoning

Created by
  • Haebom
Category
Empty

저자

Zhengzhuo Xu, SiNan Du, Yiyan Qi, SiwenLu, Chengjin Xu, Chun Yuan, Jian Guo

개요

Multimodal Large Language Models (MLLMs)의 차트 이해 능력이 OCR에 의존하여 차트 텍스트 주석이 부족할 경우 수치적 환각을 일으키는 문제점을 지적하고, 시각적 인식 기반의 추론 부족을 해결하기 위해 PointCoT를 제안합니다. PointCoT는 바운딩 박스 생성 및 위치 주석 기반의 차트 재렌더링을 통해 텍스트 추론 단계와 시각적 영역 간의 연결을 구축합니다. 또한 ChartPoint-SFT-62k 데이터셋을 구축하고, 이를 활용하여 ChartPointQ2 및 ChartPointQ2.5 모델을 개발하여 기존 차트 벤치마크에서 SOTA를 달성했습니다.

시사점, 한계점

MLLMs의 차트 이해에서 시각적 인식 및 위치 기반 추론의 중요성을 강조.
PointCoT를 통해 텍스트 추론과 시각적 정보를 효과적으로 연결하는 방법 제시.
자동화된 데이터셋 구축 파이프라인과 instruction-tuned 모델 개발.
기존 차트 벤치마크에서 SOTA 달성.
한계점은 구체적으로 명시되지 않음.
👍