Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Fusion vision-langage pour la conduite autonome en temps réel : attention croisée centrée sur l'objectif de la caméra, de la carte HD et des points de cheminement

Created by
  • Haebom

Auteur

Santosh Patapati, Trisanth Srinivasan, Murari Ambati

Contour

XYZ-Drive est un système de conduite autonome utilisant un modèle de langage visuel unique en entrée, prenant en compte une image de caméra frontale, une carte aérienne de 25 m x 25 m et un prochain point de cheminement, et fournissant en sortie la direction et la vitesse. Les jetons de point de cheminement prennent en charge les descriptions d'action et textuelles grâce à une couche d'attention croisée légère et ciblée qui met en évidence les zones d'image et de carte pertinentes. Les jetons fusionnés sont intégrés à un modèle LLaMA-3.2 11B partiellement optimisé. Sur le benchmark MD-NEX Outdoor-Driving, il atteint un taux de réussite de 95 % et un taux de réussite pondéré par la longueur du trajet (SPL) de 0,80, soit une amélioration de 15 % par rapport à PhysNav-DG, avec un nombre de collisions divisé par deux, et une efficacité significativement améliorée grâce à l'utilisation d'une seule branche. Nous démontrons cette amélioration des performances par 16 études d'ablation.

Takeaways, Limitations

Takeaways:
Nous démontrons que la fusion précoce au niveau des jetons de la vision, des points de cheminement et des informations cartographiques permet une conduite autonome précise, transparente et en temps réel.
Nous démontrons qu’un modèle unique de vision-langage peut améliorer simultanément la précision et l’efficacité de la conduite autonome.
Nous démontrons que les mécanismes d’attention axés sur les objectifs jouent un rôle crucial dans l’intégration efficace des informations supervisées.
Cela souligne l’importance d’un réglage précis lors de l’application du VLM à des tâches spécifiques (conduite autonome).
Limitations:
À Mesure que la résolution de la carte diminue (de 10 cm à 40 cm), les bords des voies deviennent flous et les taux de collision augmentent, ce qui suggère la nécessité de cartes à plus haute résolution.
La suppression d'une modalité (Vision, Points de cheminement, Carte) réduit les taux de réussite jusqu'à 11 %, ce qui rend cruciale la complémentarité des rôles entre les modalités. Il est nécessaire d'améliorer la robustesse entre les modalités.
👍