Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DRAMA-X : Une analyse comparative précise de la prédiction des intentions et du raisonnement sur les risques pour la conduite

Created by
  • Haebom

Auteur

Mihir Godbole, Xiangbo Gao, Zhengzhong Tu

Contour

Cet article souligne l'importance de prédire les mouvements à court terme des usagers vulnérables de la route (VRU) pour la sécurité de la conduite autonome, notamment en milieu urbain où les comportements ambigus ou à risque sont fréquents. Si les modèles vision-langage (VLM) existants permettent la reconnaissance d'un vocabulaire ouvert, leur application à l'inférence d'intention fine reste un domaine inexploré. Pour combler cette lacune, cet article présente DRAMA-X, un benchmark fin généré par un pipeline d'annotation automatique basé sur l'ensemble de données DRAMA. DRAMA-X comprend des cadres de délimitation d'objets, des classifications d'intentions à neuf directions, des scores de risque binaires, des suggestions d'actions autonomes générées par des experts et des résumés descriptifs de mouvements pour 5 686 images de risque d'accident. Ces annotations permettent une évaluation structurée de quatre tâches interdépendantes (détection d'objets, prédiction d'intentions, évaluation des risques et suggestion d'actions) qui sont essentielles à la prise de décision en conduite autonome. Cet article propose comme base de référence SGG-Intent, un framework léger et sans formation qui reproduit le pipeline d'inférence des véhicules autonomes. SGG-Intent génère séquentiellement un graphe de scène à partir d'entrées visuelles à l'aide d'un détecteur basé sur un VLM, déduit les intentions, évalue les risques et recommande des actions grâce à une étape d'inférence compositionnelle basée sur un modèle de langage à grande échelle. Nous évaluons différents VLM de pointe et comparons leurs performances sur quatre tâches dans DRAMA-X. Les résultats expérimentaux démontrent que l'inférence basée sur un graphe de scène améliore la prédiction des intentions et l'évaluation des risques, en particulier lorsque les indices contextuels sont explicitement modélisés.

Takeaways, Limitations

Takeaways:
Le benchmark DRAMA-X établit une nouvelle norme pour la prédiction des intentions VRU dans la conduite autonome.
SGG-Intent présente une approche efficace pour l'inférence d'intention et l'évaluation des risques à l'aide de VLM.
Nous démontrons expérimentalement que l'inférence basée sur un graphique de scène améliore la précision de la prédiction des intentions et de l'évaluation des risques du VRU.
Limitations:
DRAMA-X La taille et la diversité de l’ensemble de données peuvent être limitées.
Les performances de SGG-Intent dépendent des performances du VLM et du LLM utilisés.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation dans des environnements réels.
Les évaluations de robustesse pour divers environnements et situations peuvent faire défaut.
👍