Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Fusion de données de capteurs multimodaux basés sur la périphérie avec des modèles de langage de vision (VLM) pour éviter les accidents de véhicules autonomes en temps réel

Created by
  • Haebom

Auteur

Fengze Yang, Bo Yu, Yang Zhou, Xuewen Luo, Zhengzhong Tu, Chenxi Liu

Contour

Cet article propose REACT (Real-time Edge-based Autonomous Co-pilot Trajectory Planner), un framework de planification de trajectoire léger et en temps réel basé sur un modèle de langage de vision qui intègre la communication véhicule-à-tout (V2X) pour surmonter les limites de détection des systèmes de conduite autonome. REACT affine un modèle de langage de vision léger (VLM) pour intégrer les alertes de danger fournies par l'infrastructure aux données des capteurs embarqués, comprend la dynamique complexe du trafic et l'intention du véhicule grâce à l'intégration visuelle, interprète des données numériques précises à partir d'entrées symboliques et génère des trajectoires optimisées et centrées sur la sécurité grâce à l'inférence contextuelle. Pour un déploiement en temps réel, REACT utilise une conception de fusion de chemin résiduel (RTF) et une stratégie d'adaptation de bord spécialisée pour réduire la complexité du modèle et améliorer l'efficacité de l'inférence. Les résultats d'évaluation sur le benchmark DeepAccident démontrent des performances de pointe, atteignant une réduction de 77 % du taux de collision, une amélioration de 48,2 % de la qualité panoptique vidéo (VPQ) et une latence d'inférence de 0,57 seconde.

Takeaways, Limitations

Takeaways:
Démontrer l'efficacité de la planification collaborative en temps réel à l'aide d'un VLM léger.
Suggérant la possibilité d’améliorer la sécurité routière et la réactivité grâce à l’inférence situationnelle induite par le langage.
Surmonter les limites de détection des systèmes de conduite autonome grâce à l'intégration V2X.
Amélioration des performances en temps réel grâce aux stratégies d'adaptation RTF et Edge.
Atteindre des performances de pointe sur le benchmark DeepAccident.
Limitations:
Il est nécessaire de vérifier les performances de généralisation pour des environnements spécifiques du benchmark DeepAccident.
Des recherches supplémentaires sont nécessaires sur la robustesse dans des conditions météorologiques diverses et des situations de circulation complexes.
Des recherches supplémentaires sont nécessaires sur l’applicabilité pratique en raison des contraintes de performance des appareils périphériques.
Dégradation possible des performances en raison d'un biais dans les données de formation dans VLM.
👍