본 논문은 자연어 명령어와 시각적 단서를 통해 무인 항공기(UAV)가 외부 환경을 항해할 수 있도록 하는 새로운 작업인 항공 비전-언어 항해(VLN)에 대해 다룬다. 기존의 어려움인 복잡한 항공 장면의 공간적 관계 문제를 해결하기 위해, 본 논문은 대규모 언어 모델(LLM)을 행동 예측 에이전트로 활용하는 훈련이 필요 없는 제로샷 프레임워크를 제안한다. 특히, LLM의 공간 추론 능력을 향상시키는 새로운 의미론적-위상적-측정 표현(STMR)을 개발한다. 이는 명령어와 관련된 의미론적 마스크를 상위-하향식 지도에 추출하고 투영하여 주변 랜드마크에 대한 공간적 및 위상적 정보를 제시하고 항해 과정에서 지도를 확장하는 방식으로 이루어진다. 각 단계에서 UAV를 중심으로 한 로컬 지도가 확장된 상위-하향식 지도에서 추출되고, 거리 측정값이 포함된 행렬 표현으로 변환되어 주어진 명령어에 대한 행동 예측을 위해 LLM에 대한 텍스트 프롬프트 역할을 한다. 실제 및 시뮬레이션 환경에서 수행된 실험은 제안된 방법의 효과와 강건성을 증명했으며, 단순 및 복잡한 항해 작업에서 최첨단 방법에 비해 절대 성공률이 각각 26.8% 및 5.8% 향상되었다. 데이터셋과 코드는 곧 공개될 예정이다.