본 논문은 대규모 다중 모달 모델(LMMs)이 저수준 시각적 지각(모양, 크기, 레이아웃)과 고수준 언어적 추론(의미, 논리) 간의 간극을 좁히는 데 어려움을 겪는 문제를 해결하기 위해, 벡터 그래픽을 이용한 새로운 접근 방식을 제시한다. LMMs의 정확한 시각적 지각 능력 향상을 위해 Scalable Vector Graphics (SVG)를 사용하고, SVG를 LMMs가 직접 해석할 수 있도록 중간 단계로 Primal Visual Description (PVD)라는 텍스트 기반 추상화를 도입한다. PVD는 도형, 위치, 측정값과 같은 기본 속성과 값으로 구성된 텍스트로 SVG를 변환하며, 작업과 무관한 합성 데이터를 사용하여 학습될 수 있다. 제안된 Visually Descriptive Language Model (VDLM)은 PVD를 활용하여 GPT-4o와 같은 최첨단 LMMs의 성능을 다양한 다중 모달 지각 및 추론 작업에서 크게 향상시키며, 해석성을 개선하고 PVD의 질과 작업 성능 간의 양의 상관관계를 보여준다.