Cet article souligne l'importance de prédire les mouvements à court terme des usagers vulnérables de la route (VRU) pour la sécurité de la conduite autonome, notamment en milieu urbain où les comportements ambigus ou à risque sont fréquents. Si les modèles vision-langage (VLM) existants permettent la reconnaissance d'un vocabulaire ouvert, leur application à l'inférence d'intention fine reste un domaine inexploré. Pour combler cette lacune, cet article présente DRAMA-X, un benchmark fin généré par un pipeline d'annotation automatique basé sur l'ensemble de données DRAMA. DRAMA-X comprend des cadres de délimitation d'objets, des classifications d'intentions à neuf directions, des scores de risque binaires, des suggestions d'actions autonomes générées par des experts et des résumés descriptifs de mouvements pour 5 686 images de risque d'accident. Ces annotations permettent une évaluation structurée de quatre tâches interdépendantes (détection d'objets, prédiction d'intentions, évaluation des risques et suggestion d'actions) qui sont essentielles à la prise de décision en conduite autonome. Cet article propose comme base de référence SGG-Intent, un framework léger et sans formation qui reproduit le pipeline d'inférence des véhicules autonomes. SGG-Intent génère séquentiellement un graphe de scène à partir d'entrées visuelles à l'aide d'un détecteur basé sur un VLM, déduit les intentions, évalue les risques et recommande des actions grâce à une étape d'inférence compositionnelle basée sur un modèle de langage à grande échelle. Nous évaluons différents VLM de pointe et comparons leurs performances sur quatre tâches dans DRAMA-X. Les résultats expérimentaux démontrent que l'inférence basée sur un graphe de scène améliore la prédiction des intentions et l'évaluation des risques, en particulier lorsque les indices contextuels sont explicitement modélisés.