Cet article aborde la navigation aérienne par vision et langage (VLN), une nouvelle tâche permettant aux drones de naviguer dans leur environnement extérieur à l'aide de commandes en langage naturel et d'indices visuels. Pour relever le défi actuel des relations spatiales dans les scènes aériennes complexes, cet article propose un cadre « zero shot » qui ne nécessite aucune formation et utilise un modèle de langage à grande échelle (LLM) comme agent de prédiction d'actions. Plus précisément, nous développons une nouvelle représentation sémantique-topologique-mesure (STMR) qui améliore les capacités de raisonnement spatial du LLM. Ceci est réalisé en extrayant et en projetant les masques sémantiques associés aux commandes sur une carte descendante, qui fournit des informations spatiales et topologiques sur les points de repère environnants et agrandit la carte pendant la navigation. À chaque étape, une carte locale centrée sur le drone est extraite de la carte descendante étendue et transformée en une représentation matricielle contenant des mesures de distance, qui sert d'invite textuelle au LLM pour prédire les actions pour une commande donnée. Des expériences menées en environnements réels et simulés ont démontré l'efficacité et la robustesse de la méthode proposée, atteignant des taux de réussite absolus de 26,8 % et 5,8 %, respectivement, par rapport aux méthodes de pointe pour des tâches de navigation simples et complexes. L'ensemble de données et le code seront bientôt publiés.