본 논문은 과학, 비즈니스, 커뮤니케이션 분야에서 차트의 중요성을 감안하여, 비전-언어 모델(VLMs)의 차트 이해 능력 향상에 초점을 맞추고 있습니다. 기존 VLMs의 주요 한계점은 차트 및 아이콘, 이미지와 같은 사람이 인식 가능한 객체(HROs)를 포함한 인포그래픽 요소의 부정확한 시각적 기반 설정에 있습니다. 이를 해결하기 위해, 논문에서는 차트와 인포그래픽 내 HROs에 대한 정확한 객체 탐지 모델 개발을 지원하는 벤치마크인 OrionBench를 제시합니다. OrionBench는 26,250개의 실제 인포그래픽과 78,750개의 합성 인포그래픽, 690만 개 이상의 바운딩 박스 주석으로 구성되며, 모델-루프 및 프로그래밍 방식을 결합하여 주석을 생성했습니다. OrionBench의 유용성을 세 가지 응용 프로그램을 통해 입증합니다. 첫째, VLMs의 차트 이해 성능을 향상시키는 Thinking-with-Boxes 방식을 구성하고, 둘째, 기존 객체 탐지 모델을 비교하며, 셋째, 개발된 탐지 모델을 문서 레이아웃 및 UI 요소 탐지에 적용합니다.