दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

क्लोज्ड-लूप कोड जेनरेशन और इंक्रीमेंटल फ्यू-शॉट अनुकूलन के साथ सन्निहित दीर्घ क्षितिज हेरफेर

Created by
  • Haebom

लेखक

युआन मेंग, ज़ियांगटोंग याओ, हैहुई ये, यिरुई झोउ, शेंगकियांग झांग, झेंगुओ सन, ज़ुकुन ली, झेनशान बिंग, एलोइस नोल

रूपरेखा

यह शोधपत्र दीर्घकालिक वस्तु हेरफेर के लिए एक नवीन रोबोटिक नियंत्रण ढाँचा प्रस्तुत करता है। चूँकि मौजूदा शिक्षण-आधारित दृष्टिकोण बड़े, कार्य-विशिष्ट डेटासेट पर निर्भर करते हैं और अज्ञात परिदृश्यों के लिए सामान्यीकरण करने में कठिनाई का अनुभव करते हैं, यह अध्ययन एक बंद-लूप ढाँचे का प्रस्ताव करता है जो पूर्व-प्रशिक्षित निम्न-स्तरीय नियंत्रकों पर निर्भर रहने के बजाय, सीधे निष्पादन योग्य कोड योजनाएँ उत्पन्न करने के लिए एक बड़े पैमाने के भाषा मॉडल (LLM) का उपयोग करता है। LLM, विचार-प्रक्रिया (CoT) और उत्तरोत्तर संरचित उदाहरणों द्वारा निर्देशित शिक्षण के कुछ पुनरावृत्तियों के माध्यम से सुदृढ़ और सामान्यीकृत कार्य योजनाएँ उत्पन्न करता है। RGB-D का उपयोग करने वाला एक रिपोर्टर परिणामों का मूल्यांकन करता है और संरचित प्रतिक्रिया प्रदान करता है, जिससे आंशिक अवलोकन के तहत त्रुटि सुधार और पुनर्योजना संभव हो पाती है। यह चरण-दर-चरण अनुमान को समाप्त करता है, गणना संबंधी ओवरहेड को कम करता है, और पिछली विधियों में देखी गई त्रुटि संचयन को सीमित करता है। यह अव्यवस्थित वास्तविक दुनिया के वातावरणों में, जिनमें लोहोरावेन्स, कैल्विन, फ्रैंका किचन और अन्य शामिल हैं, 30 से अधिक विविध दीर्घ-अवधि के कार्यों, ज्ञात और अज्ञात दोनों, पर अत्याधुनिक प्रदर्शन प्राप्त करता है।

Takeaways, Limitations

Takeaways:
हम निम्न-स्तरीय नियंत्रक के बिना सीधे निष्पादन योग्य कोड उत्पन्न करने के लिए बड़े पैमाने पर भाषा मॉडल का लाभ उठाकर दीर्घकालिक ऑब्जेक्ट हेरफेर समस्या का एक नया समाधान प्रस्तुत करते हैं।
निर्देशित चिंतन प्रक्रियाओं (सीओटी) और प्रगतिशील, संरचित उदाहरण सीखने के माध्यम से मजबूत, सामान्यीकरण योग्य कार्य योजनाएं तैयार करें।
एक बंद-लूप फ्रेमवर्क और आरजीबी-डी-आधारित फीडबैक प्रणाली त्रुटि सुधार और पुनः नियोजन को सक्षम बनाती है, जिससे चरण-दर-चरण अनुमान और त्रुटि संचयन में कमी आती है।
विभिन्न वातावरणों में 30 से अधिक कार्यों के लिए अत्याधुनिक प्रदर्शन प्राप्त करें।
Limitations:
यह एलएलएम के प्रदर्शन पर निर्भर है, और एलएलएम की सीमाएं सीधे सिस्टम प्रदर्शन को प्रभावित कर सकती हैं।
चूंकि कुछ भाग RGB-D सेंसर पर निर्भर होते हैं, इसलिए यदि सेंसर खराब हो या अनुपलब्ध हो तो सिस्टम संचालन प्रभावित हो सकता है।
वास्तविक दुनिया के वातावरण में सामान्यीकरण प्रदर्शन के लिए आगे प्रयोग और सत्यापन की आवश्यकता होती है।
एलएलएम की कम्प्यूटेशनल लागत काफी अधिक हो सकती है, तथा इसके वास्तविक समय के प्रदर्शन पर और अधिक शोध की आवश्यकता है।
👍