본 논문은 자율 주행 시스템 내 상호 작용적 구성 요소로서의 Vision-Language Model (VLM)의 안전성 평가를 위한 새로운 평가 방법인 Safety Cognitive Driving Benchmark (SCD-Bench)를 제안합니다. 대규모 어노테이션의 어려움을 해결하기 위해 Autonomous Driving Image-Text Annotation System (ADA)을 개발하고, 전문가의 수동 검증을 통해 데이터 품질을 확보했습니다. 또한, 대규모 언어 모델(LLM) 기반의 자동 평가 방법을 개발하여 전문가 평가와 99.74%의 일치율을 달성했습니다. 실험 결과, 기존 오픈소스 모델들은 GPT-4o에 비해 안전 인식 능력이 부족하며, 특히 경량 모델(1B-4B)의 안전 인식 능력은 매우 낮은 것으로 나타났습니다. 이는 자율 주행 시스템에 VLM을 통합하는 데 있어 중요한 과제를 제시합니다.