Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Navigation aérienne par vision et langage via une représentation sémantique-topo-métrique Raisonnement LLM guidé

Created by
  • Haebom

Auteur

Yunpeng Gao, Zhigang Wang, Linglin Jing, Dong Wang, Xuelong Li, Bin Zhao

Contour

Cet article aborde une nouvelle tâche de navigation aérienne en langage visuel (VLN aérienne), qui consiste à piloter un véhicule aérien sans pilote (UAV) en extérieur à l'aide de commandes en langage naturel et d'indices visuels. Les relations spatiales de scènes aériennes extérieures complexes sont complexes. Dans cet article, nous proposons un cadre VLN aérien de bout en bout, sans tir, utilisant un modèle de langage à grande échelle (LLM) comme agent de prédiction d'action. Plus précisément, nous développons une nouvelle représentation sémantique-localisation-mesure (STMR) qui améliore la capacité de raisonnement spatial du LLM. Ceci est réalisé en extrayant et en projetant des masques sémantiques de points de repère pertinents pour la commande sur une supercarte contenant les informations de localisation des points de repère environnants. De plus, cette carte est transformée en une représentation matricielle incluant des mesures de distance et utilisée comme invite textuelle pour que le LLM prédise l'action suivant la commande. Des expériences menées dans des environnements réels et simulés démontrent avec succès l'efficacité et la robustesse de la méthode proposée, améliorant le taux de réussite Oracle (OSR) de 15,9 % et 12,5 % (valeur absolue) sur l'ensemble de données AerialVLN-S.

Takeaways, Limitations_

Takeaways:
Mise en œuvre efficace d'un cadre VLN aérien de bout en bout à tir nul utilisant LLM.
Améliorer la capacité de raisonnement spatial des LLM grâce à la représentation sens-localisation-mesure (STMR).
Excellente validation des performances dans des environnements réels et simulés (amélioration OSR de 15,9% et 12,5% sur le jeu de données AerialVLN-S).
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Des évaluations de robustesse supplémentaires pour des environnements divers et des commandes complexes sont nécessaires.
Des recherches sont nécessaires sur la manière de gérer les situations inattendues qui peuvent survenir lors de l’application du système dans un environnement réel.
👍