दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

हवाई दृष्टि-भाषा नेविगेशन में एलएलएम तर्क को बढ़ाने के लिए स्थानिक प्रतिनिधित्व की खोज

Created by
  • Haebom

लेखक

युनपेंग गाओ, झीगांग वांग, पेंगफेई हान, लिंगलिन जिंग, डोंग वांग, बिन झाओ

रूपरेखा

यह शोधपत्र हवाई दृष्टि-भाषा नेविगेशन (वीएलएन) पर केंद्रित है, जो एक ऐसा नवीन कार्य है जो मानवरहित हवाई वाहनों (यूएवी) को प्राकृतिक भाषा आदेशों और दृश्य संकेतों का उपयोग करके अपने बाह्य वातावरण में नेविगेट करने में सक्षम बनाता है। जटिल हवाई दृश्यों में स्थानिक संबंधों की मौजूदा चुनौती का समाधान करने के लिए, यह शोधपत्र एक शून्य-शॉट ढाँचा प्रस्तावित करता है जिसके लिए किसी प्रशिक्षण की आवश्यकता नहीं होती है और जो एक बड़े पैमाने के भाषा मॉडल (एलएलएम) को एक क्रिया पूर्वानुमान एजेंट के रूप में उपयोग करता है। विशेष रूप से, हम एक नवीन अर्थ-सामरिक-सामरिक-मापन निरूपण (एसटीएमआर) विकसित करते हैं जो एलएलएम की स्थानिक तर्क क्षमताओं को बढ़ाता है। यह आदेशों से जुड़े अर्थ-सामरिक मास्क को एक टॉप-डाउन मानचित्र पर निकालकर प्रक्षेपित करके प्राप्त किया जाता है, जो आसपास के स्थलों के बारे में स्थानिक और स्थलाकृतिक जानकारी प्रदान करता है और नेविगेशन के दौरान मानचित्र का विस्तार करता है। प्रत्येक चरण में, यूएवी पर केंद्रित एक स्थानीय मानचित्र को विस्तारित टॉप-डाउन मानचित्र से निकाला जाता है और दूरी मापों वाले एक मैट्रिक्स निरूपण में परिवर्तित किया जाता है, जो एलएलएम के लिए किसी दिए गए आदेश के लिए क्रियाओं का पूर्वानुमान लगाने हेतु एक टेक्स्ट प्रॉम्प्ट के रूप में कार्य करता है। वास्तविक और सिम्युलेटेड वातावरण में किए गए प्रयोगों ने प्रस्तावित विधि की प्रभावशीलता और सुदृढ़ता को प्रदर्शित किया, जिससे सरल और जटिल नेविगेशन कार्यों के लिए अत्याधुनिक विधियों की तुलना में क्रमशः 26.8% और 5.8% की पूर्ण सफलता दर प्राप्त हुई। डेटासेट और कोड जल्द ही जारी किए जाएँगे।

Takeaways, Limitations

Takeaways:
हमने शून्य-शॉट ढांचे के माध्यम से हवाई वीएलएन परिचालन की दक्षता में सुधार किया है, जिसके लिए किसी प्रशिक्षण की आवश्यकता नहीं होती है।
हमने एसटीएमआर के माध्यम से एलएलएम की स्थानिक तर्क क्षमता को बढ़ाकर हवाई वीएलएन के प्रदर्शन में सुधार किया।
वास्तविक और नकली वातावरण में अत्याधुनिक प्रदर्शन हासिल किया।
डेटासेट और कोड को भविष्य के अनुसंधान के लिए सार्वजनिक किया जाएगा।
Limitations:
डेटासेट और कोड अभी तक सार्वजनिक नहीं हैं।
वास्तविक दुनिया के वातावरण में सामान्यीकरण प्रदर्शन के आगे सत्यापन की आवश्यकता है।
जटिल वातावरण और अप्रत्याशित स्थितियों में मजबूती पर और अधिक शोध की आवश्यकता है।
👍