Este artículo aborda la navegación aérea con visión y lenguaje (VLN), una novedosa tarea que permite a los vehículos aéreos no tripulados (UAV) navegar en su entorno externo mediante comandos de lenguaje natural y señales visuales. Para abordar el desafío existente de las relaciones espaciales en escenas aéreas complejas, este artículo propone un marco de trabajo de disparo cero que no requiere entrenamiento y utiliza un modelo de lenguaje a gran escala (LLM) como agente de predicción de acciones. Específicamente, desarrollamos una novedosa Representación Semántica-Topológica-De-Medidas (STMR) que mejora las capacidades de razonamiento espacial del LLM. Esto se logra extrayendo y proyectando máscaras semánticas asociadas a comandos en un mapa descendente, que proporciona información espacial y topológica sobre los puntos de referencia circundantes y expande el mapa durante la navegación. En cada paso, se extrae un mapa local centrado en el UAV del mapa descendente expandido y se transforma en una representación matricial que contiene medidas de distancia, que sirve como un mensaje de texto para que el LLM prediga acciones para un comando dado. Experimentos realizados en entornos reales y simulados demostraron la eficacia y robustez del método propuesto, alcanzando tasas de éxito absoluto del 26,8 % y el 5,8 %, respectivamente, en comparación con métodos de vanguardia para tareas de navegación simples y complejas. El conjunto de datos y el código se publicarán próximamente.