Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MetaOcc : Fusion spatio-temporelle d'un radar et d'une caméra 4D à vue panoramique pour la prédiction d'occupation 3D avec des stratégies de double formation

Created by
  • Haebom

Auteur

Long Yang, Lianqing Zheng, Wenjin Ai, Minghao Liu, Sen Li, Qunshu Lin, Shengyu Yan, Jie Bai, Zhixiong Ma, Tao Huang, Xichan Zhu

Contour

Cet article présente MetaOcc, un framework multimodal pour une prédiction d'occupation 3D robuste, même en conditions météorologiques défavorables. MetaOcc réalise une prédiction d'occupation 3D omnidirectionnelle à l'aide d'images et de radars 4D multi-vues. Pour surmonter les limites de l'application directe d'encodeurs LiDAR à des données radar éparses, nous proposons un module d'auto-attention de hauteur radar qui améliore l'inférence spatiale verticale et l'extraction de caractéristiques. De plus, nous atténuons les décalages spatio-temporels et enrichissons la représentation des caractéristiques fusionnées grâce à une stratégie de fusion multimodale hiérarchique multi-échelles qui effectue une fusion adaptative locale-globale entre les modalités et le temps. Pour réduire la dépendance aux annotations coûteuses de nuages de points, nous proposons un pipeline de génération de pseudo-étiquettes basé sur un segmenteur à ensemble ouvert, mettant en œuvre une stratégie d'apprentissage semi-supervisé qui atteint 90 % des performances supervisées globales en utilisant seulement 50 % des étiquettes de vérité terrain. Les résultats expérimentaux montrent que MetaOcc atteint des performances de pointe en améliorant les méthodes existantes de +0,47 SC IoU et +4,02 mIoU sur l'ensemble de données OmniHD-Scenes, et de +1,16 SC IoU et +1,24 mIoU sur l'ensemble de données SurroundOcc-nuScenes.

Takeaways, Limitations

Takeaways:
Un cadre de fusion multimodal efficace pour une prédiction d'occupation 3D robuste même dans des conditions météorologiques défavorables est présenté.
Proposition d'un module d'auto-attention de hauteur radar pour une extraction efficace de caractéristiques à partir de données radar clairsemées.
Proposition d'une stratégie de fusion multimodale multi-échelle hiérarchique pour l'atténuation des inadéquations spatio-temporelles et l'enrichissement de la représentation des caractéristiques.
Réduire les coûts d’annotation et améliorer les performances grâce à des stratégies d’apprentissage semi-supervisé.
Obtenir des performances de pointe sur les ensembles de données OmniHD-Scenes et SurroundOcc-nuScenes.
Présentation de l’applicabilité pratique aux systèmes de conduite autonome réels.
Limitations:
Les performances du pipeline de génération de pseudo-étiquettes proposé sont encore légèrement inférieures (environ 90 %) à celles de l’apprentissage entièrement supervisé.
Une validation supplémentaire des performances de généralisation dans diverses conditions météorologiques défavorables est nécessaire.
Une évaluation des performances en temps réel dans des environnements de conduite autonome réels est nécessaire.
👍