Este artículo destaca la importancia de predecir los movimientos a corto plazo de los usuarios vulnerables de la vía pública (VRU) para la seguridad de la conducción autónoma, en particular en entornos urbanos donde prevalecen comportamientos ambiguos o de riesgo. Si bien los modelos de lenguaje visual (VLM) existentes permiten el reconocimiento de vocabulario abierto, su aplicación a la inferencia de intención de grano fino sigue siendo un área inexplorada. Para abordar esta brecha, este artículo presenta DRAMA-X, un punto de referencia de grano fino generado a través de un flujo de anotación automática basado en el conjunto de datos DRAMA. DRAMA-X incluye cuadros delimitadores de objetos, clasificaciones de intención de nueve direcciones, puntajes de riesgo binarios, sugerencias de acción autónoma generadas por expertos y resúmenes descriptivos de movimiento para 5686 marcos de riesgo de accidente. Estas anotaciones permiten una evaluación estructurada de cuatro tareas interrelacionadas (detección de objetos, predicción de intención, evaluación de riesgos y sugerencia de acción) que son centrales para la toma de decisiones de conducción autónoma. Como punto de partida, este artículo propone SGG-Intent, un marco de trabajo ligero y sin entrenamiento que replica el proceso de inferencia de los vehículos autónomos. SGG-Intent genera secuencialmente un grafo de escena a partir de la información visual mediante un detector basado en VLM, infiere intenciones, evalúa el riesgo y recomienda acciones mediante un paso de inferencia compositiva basado en un modelo de lenguaje a gran escala. Evaluamos varios VLM de última generación y comparamos su rendimiento en cuatro tareas de DRAMA-X. Los resultados experimentales demuestran que la inferencia basada en grafos de escena mejora la predicción de intenciones y la evaluación del riesgo, especialmente cuando las señales contextuales se modelan explícitamente.