Este artículo presenta el Safety Cognition Driving Benchmark (SCD-Bench), un novedoso sistema de referencia para evaluar la seguridad de los modelos de visión-lenguaje (VLM) en sistemas de conducción autónoma. Para abordar la escalabilidad de la anotación de datos, presentamos Autonomous Driving Annotation (ADA), un sistema de anotación semiautomatizado revisado por expertos en conducción autónoma. Mediante un proceso de evaluación automatizado, logramos una concordancia superior al 98 % con las opiniones de los expertos. Además, desarrollamos SCD-Training, el primer conjunto de datos a gran escala para esta tarea (con 324 350 muestras de alta calidad), que contribuye a mejorar las capacidades de cognición de seguridad de los VLM. Los resultados experimentales muestran que los modelos entrenados con SCD-Training superan a SCD-Bench, así como a los sistemas de referencia generales y específicos del dominio.