Vision-Language 모델(VLM)은 멀티모달 태스크에서 강력한 성능을 보이지만, 체계적인 시각적 추론 작업에서는 일관성이 없거나 비논리적인 출력을 내는 경우가 많습니다. 본 논문에서는 VLM의 지각 유연성과 프로그램 합성을 통한 체계적인 추론을 결합한 Vision-Language Programs (VLP)를 제안합니다. VLP는 VLM 내부에 추론을 내장하는 대신, 모델을 활용하여 구조화된 시각적 설명을 생성하고 이를 신경 기호 프로그램으로 컴파일합니다. 결과 프로그램은 이미지에서 직접 실행되며, 작업 제약 조건과 일치하고, 인간이 이해할 수 있는 설명을 제공하여 지름길 사용을 쉽게 완화할 수 있습니다. 합성 및 실제 데이터셋 실험 결과, VLP는 복잡한 논리적 추론을 요구하는 작업에서 직접 및 구조화된 프롬프트보다 우수한 성능을 보였습니다.