Cet article aborde une nouvelle tâche de navigation aérienne en langage visuel (VLN aérienne), qui consiste à piloter un véhicule aérien sans pilote (UAV) en extérieur à l'aide de commandes en langage naturel et d'indices visuels. Les relations spatiales de scènes aériennes extérieures complexes sont complexes. Dans cet article, nous proposons un cadre VLN aérien de bout en bout, sans tir, utilisant un modèle de langage à grande échelle (LLM) comme agent de prédiction d'action. Plus précisément, nous développons une nouvelle représentation sémantique-localisation-mesure (STMR) qui améliore la capacité de raisonnement spatial du LLM. Ceci est réalisé en extrayant et en projetant des masques sémantiques de points de repère pertinents pour la commande sur une supercarte contenant les informations de localisation des points de repère environnants. De plus, cette carte est transformée en une représentation matricielle incluant des mesures de distance et utilisée comme invite textuelle pour que le LLM prédise l'action suivant la commande. Des expériences menées dans des environnements réels et simulés démontrent avec succès l'efficacité et la robustesse de la méthode proposée, améliorant le taux de réussite Oracle (OSR) de 15,9 % et 12,5 % (valeur absolue) sur l'ensemble de données AerialVLN-S.