Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

OccVLA : Modèle Vision-Langage-Action avec supervision implicite de l'occupation 3D

Created by
  • Haebom

Auteur

Ruixun Liu, Lingyu Kong, Derun Li, Hang Zhao

Contour

Cet article propose le cadre OccVLA pour pallier les limitations des modèles de langage multimodaux à grande échelle (MLLM), qui manquent de compréhension spatiale 3D pour la conduite autonome. OccVLA répond à deux défis majeurs : la difficulté de construire des représentations 3D efficaces sans annotation manuelle coûteuse, et la perte d'informations spatiales fines due à l'absence d'apprentissage d'un dictionnaire visuel 3D à grande échelle. Il apprend la structure spatiale fine directement à partir d'entrées visuelles 2D en utilisant des données d'occupation 3D denses comme sortie de prédiction et signaux de supervision. L'omission de l'étape de prédiction d'occupation lors de l'inférence n'altère pas les performances et n'entraîne aucune surcharge de calcul supplémentaire. Il atteint des performances de pointe en planification de trajectoire sur le benchmark nuScenes et démontre des performances supérieures sur une tâche de réponse visuelle à des questions 3D.

Takeaways, Limitations

Takeaways:
Présentation d'une méthode efficace pour améliorer la compréhension spatiale 3D en utilisant uniquement des informations visuelles 2D.
Apprentissage d'informations spatiales 3D sans annotation manuelle coûteuse
Performances améliorées sans surcharge de calcul supplémentaire pendant le processus d'inférence.
Fournir des solutions évolutives et interprétables applicables aux applications de conduite autonome.
Atteindre des performances de pointe dans le benchmark nuScenes
Limitations:
Une évaluation plus approfondie des performances de généralisation de la méthode proposée est nécessaire.
La vérification de la robustesse est nécessaire pour divers environnements et situations.
Des recherches supplémentaires sont nécessaires pour l’appliquer aux systèmes de conduite autonome réels.
👍