ChartPoint: Guiding MLLMs with Grounding Reflection for Chart Reasoning
Created by
Haebom
Category
Empty
저자
Zhengzhuo Xu, SiNan Du, Yiyan Qi, SiwenLu, Chengjin Xu, Chun Yuan, Jian Guo
개요
Multimodal Large Language Models (MLLMs)의 차트 이해 능력이 OCR에 의존하여 차트 텍스트 주석이 부족할 경우 수치적 환각을 일으키는 문제점을 지적하고, 시각적 인식 기반의 추론 부족을 해결하기 위해 PointCoT를 제안합니다. PointCoT는 바운딩 박스 생성 및 위치 주석 기반의 차트 재렌더링을 통해 텍스트 추론 단계와 시각적 영역 간의 연결을 구축합니다. 또한 ChartPoint-SFT-62k 데이터셋을 구축하고, 이를 활용하여 ChartPointQ2 및 ChartPointQ2.5 모델을 개발하여 기존 차트 벤치마크에서 SOTA를 달성했습니다.