Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Exploration de la représentation spatiale pour améliorer le raisonnement LLM dans la navigation aérienne vision-langage

Created by
  • Haebom

Auteur

Yunpeng Gao, Zhigang Wang, Pengfei Han, Linglin Jing, Dong Wang, Bin Zhao

Contour

Cet article aborde la navigation aérienne par vision et langage (VLN), une nouvelle tâche permettant aux drones de naviguer dans leur environnement extérieur à l'aide de commandes en langage naturel et d'indices visuels. Pour relever le défi actuel des relations spatiales dans les scènes aériennes complexes, cet article propose un cadre « zero shot » qui ne nécessite aucune formation et utilise un modèle de langage à grande échelle (LLM) comme agent de prédiction d'actions. Plus précisément, nous développons une nouvelle représentation sémantique-topologique-mesure (STMR) qui améliore les capacités de raisonnement spatial du LLM. Ceci est réalisé en extrayant et en projetant les masques sémantiques associés aux commandes sur une carte descendante, qui fournit des informations spatiales et topologiques sur les points de repère environnants et agrandit la carte pendant la navigation. À chaque étape, une carte locale centrée sur le drone est extraite de la carte descendante étendue et transformée en une représentation matricielle contenant des mesures de distance, qui sert d'invite textuelle au LLM pour prédire les actions pour une commande donnée. Des expériences menées en environnements réels et simulés ont démontré l'efficacité et la robustesse de la méthode proposée, atteignant des taux de réussite absolus de 26,8 % et 5,8 %, respectivement, par rapport aux méthodes de pointe pour des tâches de navigation simples et complexes. L'ensemble de données et le code seront bientôt publiés.

Takeaways, Limitations

Takeaways:
Nous avons amélioré l’efficacité des opérations aériennes VLN grâce à un cadre zéro tir qui ne nécessite aucune formation.
Nous avons amélioré les performances du VLN aérien en améliorant la capacité de raisonnement spatial du LLM via STMR.
Atteint des performances de pointe dans des environnements réels et simulés.
Les ensembles de données et le code seront rendus publics pour des recherches futures.
Limitations:
L'ensemble de données et le code ne sont pas encore publics.
Une validation supplémentaire des performances de généralisation dans des environnements réels est nécessaire.
Des recherches supplémentaires sont nécessaires sur la robustesse dans des environnements complexes et des situations inattendues.
👍