Este artículo aborda una nueva tarea de navegación aérea visual-lenguaje (VLN aérea), que implica navegar un vehículo aéreo no tripulado (UAV) en un entorno exterior utilizando comandos de lenguaje natural y señales visuales. Las relaciones espaciales de escenas aéreas complejas en exteriores son desafiantes. En este artículo, proponemos un marco VLN aéreo de disparo cero de extremo a extremo que utiliza un modelo de lenguaje a gran escala (LLM) como agente de predicción de acciones. En particular, desarrollamos una nueva representación semántica-ubicación-medida (STMR) que mejora la capacidad de razonamiento espacial de LLM. Esto se logra extrayendo y proyectando máscaras semánticas de puntos de referencia relevantes para el comando en un supermapa que contiene información de ubicación de puntos de referencia circundantes. Además, este mapa se transforma en una representación matricial que incluye medidas de distancia y se utiliza como un mensaje de texto para que LLM prediga la acción siguiente al comando. Los experimentos realizados en entornos reales y simulados demuestran con éxito la eficacia y robustez del método propuesto, mejorando el Oracle Success Rate (OSR) en un 15,9% y un 12,5% (valor absoluto) en el conjunto de datos AerialVLN-S.