यह शोधपत्र हवाई दृश्य-भाषा नेविगेशन (एरियल वीएलएन) के एक नए कार्य को संबोधित करता है, जिसमें प्राकृतिक भाषा आदेशों और दृश्य संकेतों का उपयोग करके एक मानव रहित हवाई वाहन (यूएवी) को बाहरी वातावरण में नेविगेट करना शामिल है। जटिल बाहरी हवाई दृश्यों के स्थानिक संबंध चुनौतीपूर्ण हैं। इस शोधपत्र में, हम एक एंड-टू-एंड जीरो-शॉट एरियल वीएलएन फ्रेमवर्क का प्रस्ताव करते हैं जो एक एक्शन प्रेडिक्शन एजेंट के रूप में बड़े पैमाने पर भाषा मॉडल (एलएलएम) का उपयोग करता है। विशेष रूप से, हम एक नया सिमेंटिक-लोकेशन-माप प्रतिनिधित्व (एसटीएमआर) विकसित करते हैं जो एलएलएम की स्थानिक तर्क क्षमता को बढ़ाता है। यह कमांड से संबंधित लैंडमार्क के सिमेंटिक मास्क को निकालकर और सुपरमैप पर प्रोजेक्ट करके प्राप्त किया जाता है जिसमें आसपास के लैंडमार्क की स्थान जानकारी होती है। इसके अलावा, इस मानचित्र को एक मैट्रिक्स प्रतिनिधित्व में बदल दिया जाता है जिसमें दूरी माप शामिल होते हैं और कमांड के बाद की कार्रवाई की भविष्यवाणी करने के लिए एलएलएम के लिए एक टेक्स्ट प्रॉम्प्ट के रूप में उपयोग किया जाता है। वास्तविक और नकली वातावरण में किए गए प्रयोगों ने प्रस्तावित विधि की प्रभावशीलता और मजबूती को सफलतापूर्वक प्रदर्शित किया, जिससे एरियलवीएलएन-एस डेटासेट पर ओरेकल सफलता दर (ओएसआर) में 15.9% और 12.5% (पूर्ण मूल्य) का सुधार हुआ।