Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

NuPlanQA : un ensemble de données à grande échelle et une référence pour la compréhension de scènes de conduite multi-vues dans des modèles multimodaux à grand langage

Created by
  • Haebom

Auteur

Parc Sung-Yeon, Can Cui, Yunsheng Ma, Ahmadreza Moradipari, Rohit Gupta, Kyungtae Han, Ziran Wang

Contour

Cet article présente NuPlanQA-Eval, un nouveau benchmark pour évaluer les capacités de compréhension des scènes de conduite des modèles linguistiques multimodaux à grande échelle (MLLM), ainsi que l'ensemble de données à grande échelle NuPlanQA-1M. NuPlanQA-1M se compose d'un million de paires de questions-réponses visuelles (VQA) du monde réel, classées en neuf sous-tâches couvrant trois compétences clés : la reconnaissance de l'environnement routier, la reconnaissance des relations spatiales et le raisonnement égocentrique. De plus, nous proposons BEV-LLM, qui intègre des caractéristiques de vue aérienne (BEV) issues d'images multi-vues dans les MLLM, démontrant ainsi que les MLLM conventionnels peinent à reconnaître les scènes de conduite spécifiques et à raisonner spatialement à partir de perspectives égocentriques. BEV-LLM surpasse les autres modèles dans six des neuf sous-tâches, démontrant que l'intégration de BEV améliore les performances des MLLM multi-vues. L'ensemble de données NuPlanQA est accessible au public.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau benchmark (NuPlanQA-Eval) et un ensemble de données à grande échelle (NuPlanQA-1M) pour la compréhension de scènes de conduite multi-vues et multimodales.
Nous présentons la possibilité d'améliorer les performances de compréhension de la scène de conduite de MLLM en intégrant les fonctionnalités BEV (BEV-LLM).
Clarification du Limitations de la reconnaissance de scène de conduite et du raisonnement spatial du MLLM existant.
Nous prévoyons que de nouvelles recherches seront stimulées par l’utilisation d’ensembles de données accessibles au public.
Limitations:
L’amélioration des performances du BEV-LLM proposé peut être limitée à certains ensembles de données.
Des recherches supplémentaires sont nécessaires pour généraliser les performances dans une variété d’environnements et de situations de conduite.
Le fait que ses résultats soient inférieurs à ceux des autres modèles dans trois des neuf sous-tâches indique que des améliorations futures sont nécessaires.
👍