본 논문은 과학, 비즈니스, 커뮤니케이션 분야에서 차트의 중요성을 고려하여, 비전-언어 모델(VLMs)의 차트 이해 능력 향상에 중점을 둡니다. 기존 VLMs의 주요 한계점으로 차트 및 아이콘, 이미지와 같은 인간이 인식 가능한 객체(HROs)를 포함한 인포그래픽 요소들의 부정확한 시각적 기반을 지적합니다. 차트 이해는 관련 요소 식별 및 추론을 필요로 합니다. 이를 해결하기 위해, 논문에서는 차트 및 HROs에 대한 정확한 객체 탐지 모델 개발을 지원하는 벤치마크인 OrionBench를 제시합니다. OrionBench는 26,250개의 실제 인포그래픽과 78,750개의 합성 인포그래픽으로 구성되며, 690만 개 이상의 바운딩 박스 주석을 포함합니다. 이러한 주석은 모델-루프 방식과 프로그래밍 방식을 결합하여 생성되었습니다. 논문에서는 OrionBench의 유용성을 세 가지 응용 프로그램을 통해 보여줍니다. 1) VLMs의 차트 이해 성능을 향상시키는 Thinking-with-Boxes 기법 구축, 2) 기존 객체 탐지 모델 비교, 3) 개발된 탐지 모델을 문서 레이아웃 및 UI 요소 탐지에 적용.