Bài báo này đề cập đến điều hướng ngôn ngữ thị giác trên không (VLN), một nhiệm vụ mới cho phép các phương tiện bay không người lái (UAV) điều hướng môi trường bên ngoài của chúng bằng các lệnh ngôn ngữ tự nhiên và tín hiệu thị giác. Để giải quyết thách thức hiện tại về các mối quan hệ không gian trong các cảnh trên không phức tạp, bài báo này đề xuất một khuôn khổ zero-shot không yêu cầu đào tạo và sử dụng mô hình ngôn ngữ quy mô lớn (LLM) làm tác nhân dự đoán hành động. Cụ thể, chúng tôi phát triển một Biểu diễn Đo lường Ngữ nghĩa-Địa hình (STMR) mới giúp tăng cường khả năng suy luận không gian của LLM. Điều này đạt được bằng cách trích xuất và chiếu các mặt nạ ngữ nghĩa liên quan đến các lệnh lên bản đồ từ trên xuống, bản đồ này cung cấp thông tin không gian và địa hình về các điểm mốc xung quanh và mở rộng bản đồ trong quá trình điều hướng. Tại mỗi bước, một bản đồ cục bộ lấy UAV làm trung tâm được trích xuất từ bản đồ từ trên xuống đã mở rộng và chuyển đổi thành biểu diễn ma trận chứa các phép đo khoảng cách, đóng vai trò là lời nhắc văn bản để LLM dự đoán các hành động cho một lệnh nhất định. Các thí nghiệm được tiến hành trong môi trường thực tế và mô phỏng đã chứng minh tính hiệu quả và độ tin cậy của phương pháp đề xuất, đạt tỷ lệ thành công tuyệt đối lần lượt là 26,8% và 5,8%, so với các phương pháp tiên tiến nhất cho các tác vụ điều hướng đơn giản và phức tạp. Bộ dữ liệu và mã sẽ sớm được phát hành.