Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Regardez avant de fusionner : alignement intermodal guidé en 2D pour une détection 3D robuste

Created by
  • Haebom

Auteur

Xiang Li, Zhangchi Hu, Xiao Xu, Bin Kong

Contour

Cet article présente une méthode d'intégration des entrées LiDAR et caméra dans une représentation unifiée en vue aérienne (BEV) afin d'améliorer les performances de perception 3D des véhicules autonomes. Les méthodes existantes souffrent d'un désalignement spatial entre les caractéristiques LiDAR et caméra, ce qui entraîne des erreurs dans la supervision précise de la profondeur des branches de caméra et l'agrégation des caractéristiques intermodales. Cet article démontre que les causes profondes de ces désalignements résident dans les imprécisions d'étalonnage et les erreurs de projection causées par l'effet d'obturateur roulant. Nous constatons que ces erreurs sont concentrées de manière prévisible aux limites objet-arrière-plan, que les détecteurs 2D identifient de manière fiable. Par conséquent, notre objectif principal est d'exploiter les informations a priori des objets 2D pour préaligner les caractéristiques intermodales avant la fusion. Pour remédier au désalignement local, nous proposons l'étalonnage en profondeur guidé par priorité (PGDC), qui utilise les informations a priori 2D pour atténuer le désalignement et maintenir la précision des paires de caractéristiques intermodales. Pour corriger les erreurs d'alignement globales, nous introduisons la fusion géométrique sensible aux discontinuités (DAGF), qui supprime le bruit résiduel du PGDC et améliore explicitement les variations de profondeur distinctes aux limites objet-arrière-plan afin de générer des représentations structurellement reconnaissables. Pour exploiter efficacement les représentations alignées, nous intégrons le modulateur de profondeur à guidage structurel (SGDM), qui fusionne efficacement la profondeur alignée et les caractéristiques de l'image grâce à un mécanisme d'attention contrôlée. La méthode proposée atteint des performances de pointe (mAP 71,5 %, NDS 73,6 %) sur le jeu de données de validation nuScenes.

Takeaways, Limitations

Takeaways:
Présentation d'une solution efficace au problème d'erreur d'alignement spatial qui se produit lors de la fusion des données LiDAR et de la caméra.
Amélioration de la précision de l'alignement des fonctionnalités intermodales en exploitant les informations préalables des objets 2D.
Reconnaissance structurelle et amélioration de la précision de la représentation BEV via les modules PGDC, DAGF et SGDM.
Atteindre les performances SOTA sur l'ensemble de données nuScenes
Limitations:
Les performances de la méthode proposée peuvent être limitées à un ensemble de données spécifique (nuScenes).
Cela peut dépendre des performances du détecteur d'objets 2D, ce qui signifie que les erreurs dans le détecteur 2D peuvent affecter les performances de l'ensemble du système.
Une vérification supplémentaire des performances de généralisation dans des environnements de conduite autonome réels est nécessaire.
Des recherches supplémentaires sont nécessaires sur la complexité informatique et les capacités de traitement en temps réel.
👍