दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सिमेंटिक-टोपो-मेट्रिक प्रतिनिधित्व के माध्यम से हवाई दृष्टि और भाषा नेविगेशन निर्देशित एलएलएम रीजनिंग

Created by
  • Haebom

लेखक

युनपेंग गाओ, झीगांग वांग, लिंगलिन जिंग, डोंग वांग, ज़ुएलोंग ली, बिन झाओ

रूपरेखा

यह शोधपत्र हवाई दृश्य-भाषा नेविगेशन (एरियल वीएलएन) के एक नए कार्य को संबोधित करता है, जिसमें प्राकृतिक भाषा आदेशों और दृश्य संकेतों का उपयोग करके एक मानव रहित हवाई वाहन (यूएवी) को बाहरी वातावरण में नेविगेट करना शामिल है। जटिल बाहरी हवाई दृश्यों के स्थानिक संबंध चुनौतीपूर्ण हैं। इस शोधपत्र में, हम एक एंड-टू-एंड जीरो-शॉट एरियल वीएलएन फ्रेमवर्क का प्रस्ताव करते हैं जो एक एक्शन प्रेडिक्शन एजेंट के रूप में बड़े पैमाने पर भाषा मॉडल (एलएलएम) का उपयोग करता है। विशेष रूप से, हम एक नया सिमेंटिक-लोकेशन-माप प्रतिनिधित्व (एसटीएमआर) विकसित करते हैं जो एलएलएम की स्थानिक तर्क क्षमता को बढ़ाता है। यह कमांड से संबंधित लैंडमार्क के सिमेंटिक मास्क को निकालकर और सुपरमैप पर प्रोजेक्ट करके प्राप्त किया जाता है जिसमें आसपास के लैंडमार्क की स्थान जानकारी होती है। इसके अलावा, इस मानचित्र को एक मैट्रिक्स प्रतिनिधित्व में बदल दिया जाता है जिसमें दूरी माप शामिल होते हैं और कमांड के बाद की कार्रवाई की भविष्यवाणी करने के लिए एलएलएम के लिए एक टेक्स्ट प्रॉम्प्ट के रूप में उपयोग किया जाता है। वास्तविक और नकली वातावरण में किए गए प्रयोगों ने प्रस्तावित विधि की प्रभावशीलता और मजबूती को सफलतापूर्वक प्रदर्शित किया, जिससे एरियलवीएलएन-एस डेटासेट पर ओरेकल सफलता दर (ओएसआर) में 15.9% और 12.5% ​​​​(पूर्ण मूल्य) का सुधार हुआ।

Takeaways, Limitations

Takeaways:
एलएलएम का उपयोग करके एंड-टू-एंड जीरो-शॉट एरियल वीएलएन फ्रेमवर्क का कुशल कार्यान्वयन।
संवेदी-स्थान-माप प्रतिनिधित्व (एसटीएमआर) के माध्यम से एलएलएम की स्थानिक तर्क क्षमता को बढ़ाना।
वास्तविक और सिम्युलेटेड वातावरण में उत्कृष्ट प्रदर्शन सत्यापन (एरियलवीएलएन-एस डेटासेट पर 15.9% और 12.5% ​​​​का ओएसआर सुधार)।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
विविध वातावरणों और जटिल आदेशों के लिए अतिरिक्त मजबूती आकलन की आवश्यकता है।
इस बात पर शोध की आवश्यकता है कि वास्तविक वातावरण में प्रणाली को लागू करते समय उत्पन्न होने वाली अप्रत्याशित स्थितियों से कैसे निपटा जाए।
👍