ChartCap이라는 대규모 차트 캡션 데이터셋(565K 이미지-캡션 쌍)을 소개합니다. 기존 데이터셋의 한계(외부 정보 포함, 구조적 요소 및 주요 통찰력 미반영)를 극복하기 위해, 차트에서 식별 가능한 데이터만을 사용하여 캡션을 생성하는 4단계 파이프라인과 순환 일관성 기반의 인간 검증 방식을 설계했습니다. 또한, 캡션으로부터 재생성된 차트와 원본 차트의 유사성을 측정하는 새로운 지표인 Visual Consistency Score를 제안합니다. ChartCap으로 미세 조정된 모델은 기존 모델(오픈소스 및 상용)과 심지어 사람이 작성한 캡션보다 더 정확하고 정보가 풍부하며 환각 현상이 적은 캡션을 생성하는 것을 실험을 통해 확인했습니다.