본 논문은 저소득 및 중간소득 국가(LMICs)의 교통사고로 인한 사망자와 경제적 손실을 줄이기 위해, Vision Language Model (VLM)을 이용한 도로 안전 평가 시스템 V-RoAst를 제안합니다. 기존의 도로 안전 평가는 인력 기반의 데이터 라벨링에 의존하여 시간과 비용이 많이 소요되는 반면, V-RoAst는 Gemini-1.5-flash 및 GPT-4o-mini와 같은 VLM을 활용하여 Mapillary의 크라우드소싱 이미지를 분석함으로써 라벨링 없이 도로 안전 속성을 평가합니다. CNN 기반 모델보다 성능은 낮지만, 시각적 질문 응답(VQA)을 통해 iRAP 기준에 따른 별점 예측이 가능함을 보여줍니다. 하지만 중요한 시각적 특징이 이미지에 없을 경우 성능이 저하되므로, 인간의 라벨링을 통한 보완이 필요합니다. 향후 VLM의 발전과 함께 in-context learning 및 파라미터 효율적인 fine-tuning을 통해 성능 향상이 기대됩니다.