दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

संवेदी-मोटर नियंत्रण के लिए एलएलएम: संदर्भगत और पुनरावृत्तीय अधिगम का संयोजन

Created by
  • Haebom

लेखक

जे ओनाटा टिस्का कार्वाल्हो, स्टेफ़ानो नोल्फी

रूपरेखा

यह शोधपत्र एक एजेंट को नियंत्रित करने की एक विधि प्रस्तावित करता है, जिसे एक बड़े पैमाने के भाषा मॉडल (LLM) का उपयोग करके कार्यान्वित किया जाता है जो निरंतर अवलोकन सदिशों को निरंतर क्रिया सदिशों पर सीधे मैप करता है। LLM एजेंट, परिवेश और लक्ष्य के पाठ्य विवरणों के आधार पर एक नियंत्रण रणनीति तैयार करता है, और प्रदर्शन प्रतिक्रिया और संवेदी-गतिशील डेटा का उपयोग करके रणनीति को बार-बार परिष्कृत करता है। इस विधि की प्रभावशीलता जिम्नेजियम लाइब्रेरी के क्लासिकल नियंत्रण कार्यों और म्यूजोको लाइब्रेरी के उल्टे पेंडुलम कार्य पर प्रमाणित है, और इसकी प्रभावशीलता GPT-oss:120b और Qwen2.5:72b जैसे अपेक्षाकृत छोटे मॉडलों पर भी प्रदर्शित होती है। यह विधि अनुमान के माध्यम से प्राप्त प्रतीकात्मक ज्ञान को एजेंट द्वारा परिवेश के साथ अंतःक्रिया करते समय एकत्रित उप-प्रतीकात्मक संवेदी-गतिशील डेटा के साथ एकीकृत करके इष्टतम या लगभग इष्टतम समाधान सफलतापूर्वक खोजती है।

Takeaways, Limitations

Takeaways:
एलएलएम का उपयोग करके कार्यान्वयन एजेंटों को नियंत्रित करने की एक नई विधि प्रस्तुत की गई है।
प्रतीकात्मक ज्ञान और उपप्रतीकात्मक संवेदी-मोटर डेटा के एकीकरण के माध्यम से कुशल समस्या समाधान।
अपेक्षाकृत छोटे एलएलएम में भी प्रभावी प्रदर्शन
विभिन्न वातावरणों में प्रयोज्यता की पुष्टि (जिमनेजिम, मुजोको)
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
अधिक जटिल एवं विविध वातावरण में निष्पादन मूल्यांकन की आवश्यकता है।
प्रयुक्त एलएलएम का आकार सीमित किया जाना चाहिए तथा अन्य एलएलएम पर इसकी प्रयोज्यता की समीक्षा की जानी चाहिए।
सीखने की प्रक्रिया की दक्षता और स्थिरता में सुधार की आवश्यकता
👍