यह शोधपत्र हवाई दृष्टि-भाषा नेविगेशन (वीएलएन) पर केंद्रित है, जो एक ऐसा नवीन कार्य है जो मानवरहित हवाई वाहनों (यूएवी) को प्राकृतिक भाषा आदेशों और दृश्य संकेतों का उपयोग करके अपने बाह्य वातावरण में नेविगेट करने में सक्षम बनाता है। जटिल हवाई दृश्यों में स्थानिक संबंधों की मौजूदा चुनौती का समाधान करने के लिए, यह शोधपत्र एक शून्य-शॉट ढाँचा प्रस्तावित करता है जिसके लिए किसी प्रशिक्षण की आवश्यकता नहीं होती है और जो एक बड़े पैमाने के भाषा मॉडल (एलएलएम) को एक क्रिया पूर्वानुमान एजेंट के रूप में उपयोग करता है। विशेष रूप से, हम एक नवीन अर्थ-सामरिक-सामरिक-मापन निरूपण (एसटीएमआर) विकसित करते हैं जो एलएलएम की स्थानिक तर्क क्षमताओं को बढ़ाता है। यह आदेशों से जुड़े अर्थ-सामरिक मास्क को एक टॉप-डाउन मानचित्र पर निकालकर प्रक्षेपित करके प्राप्त किया जाता है, जो आसपास के स्थलों के बारे में स्थानिक और स्थलाकृतिक जानकारी प्रदान करता है और नेविगेशन के दौरान मानचित्र का विस्तार करता है। प्रत्येक चरण में, यूएवी पर केंद्रित एक स्थानीय मानचित्र को विस्तारित टॉप-डाउन मानचित्र से निकाला जाता है और दूरी मापों वाले एक मैट्रिक्स निरूपण में परिवर्तित किया जाता है, जो एलएलएम के लिए किसी दिए गए आदेश के लिए क्रियाओं का पूर्वानुमान लगाने हेतु एक टेक्स्ट प्रॉम्प्ट के रूप में कार्य करता है। वास्तविक और सिम्युलेटेड वातावरण में किए गए प्रयोगों ने प्रस्तावित विधि की प्रभावशीलता और सुदृढ़ता को प्रदर्शित किया, जिससे सरल और जटिल नेविगेशन कार्यों के लिए अत्याधुनिक विधियों की तुलना में क्रमशः 26.8% और 5.8% की पूर्ण सफलता दर प्राप्त हुई। डेटासेट और कोड जल्द ही जारी किए जाएँगे।