본 논문에서는 저소득 및 중소득 국가(LMICs)에서의 도로 안전 평가 비용 절감을 위해 영상-언어 모델(VLMs)을 활용한 제로샷 시각적 질의응답(VQA) 프레임워크인 V-RoAst를 제안한다. 기존의 전문가 주석 및 훈련 데이터 기반 방법의 한계를 극복하고자 태국 도로 안전 평가 데이터(ThaiRAP)를 기반으로 구축한 2,000개 이상의 거리 수준 이미지 데이터셋을 공개하며, Gemini-1.5-flash와 GPT-4o-mini를 사용하여 VGGNet 및 ResNet 기준 모델과 성능을 비교 분석한다. VLMs는 공간 인식 능력은 부족하지만, 미지의 클래스에 대한 일반화 성능이 우수하고 재훈련 없이 프롬프트 기반 추론이 가능하다는 것을 보여준다. 보완적인 데이터와 통합될 경우 VLMs가 자동 도로 안전 평가 도구로 활용될 수 있음을 제시하며, 제로샷 기반 인프라 위험 평가에 VLMs를 활용한 최초의 연구로서 저비용 자동 도로 안전 매핑을 위한 새로운 방향을 제시한다.