दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

HyCodePolicy: एम्बेडेड एजेंटों में मल्टीमॉडल मॉनिटरिंग और निर्णय के लिए हाइब्रिड भाषा नियंत्रक

Created by
  • Haebom

लेखक

यिबिन लियू, झिक्सुआन लियांग, ज़ैनक्सिन चेन, तियानक्सिंग चेन, मेंगकांग हू, वानक्सी डोंग, कांगशेंग जू, झाओमिंग हान, युसेन किन, याओ म्यू

रूपरेखा

यह शोधपत्र बहुविधीय वृहत्-स्तरीय भाषा मॉडल (एमएलएलएम) में हालिया प्रगति पर चर्चा करता है, जो सन्निहित एजेंटों में कोड नीति निर्माण के लिए समृद्ध अवधारणात्मक साक्ष्य को सक्षम बनाता है। अधिकांश मौजूदा प्रणालियों में नीति निष्पादन की अनुकूली निगरानी और कार्य पूरा होने के दौरान कोड पुनर्प्राप्ति के लिए प्रभावी तंत्रों का अभाव है। यह अध्ययन HyCodePolicy का परिचय देता है, जो एक संकर भाषा-आधारित नियंत्रण ढाँचा है जो सन्निहित एजेंटों के बंद-लूप प्रोग्रामिंग चक्र में कोड संश्लेषण, ज्यामितीय साक्ष्य, अवधारणात्मक निगरानी और पुनरावृत्त पुनर्प्राप्ति को व्यवस्थित रूप से एकीकृत करता है। एक प्राकृतिक भाषा निर्देश दिए जाने पर, सिस्टम पहले उसे उप-लक्ष्यों में विघटित करता है और वस्तु-उन्मुख ज्यामितीय आदिमों पर आधारित एक प्रारंभिक निष्पादन योग्य प्रोग्राम उत्पन्न करता है। फिर, जब प्रोग्राम सिमुलेशन में निष्पादित होता है, तो एक विज़न-लैंग्वेज मॉडल (वीएलएम) निष्पादन विफलताओं का पता लगाने, स्थानीयकृत करने और उनके कारण का अनुमान लगाने के लिए चयनित चेकपॉइंट्स का अवलोकन करता है। वीएलएम-आधारित अवधारणात्मक प्रतिक्रिया के साथ प्रोग्राम-स्तरीय घटनाओं को पकड़ने वाले संरचित निष्पादन ट्रेस को एकीकृत करके, HyCodePolicy विफलताओं का कारण अनुमान लगाता है और प्रोग्राम को पुनर्प्राप्त करता है। यह हाइब्रिड डुअल-फीडबैक तंत्र न्यूनतम मानवीय पर्यवेक्षण के साथ स्व-सुधारात्मक प्रोग्राम संश्लेषण को सक्षम बनाता है। प्रायोगिक परिणाम दर्शाते हैं कि HyCodePolicy रोबोट हेरफेर नीतियों की मज़बूती और नमूना दक्षता में उल्लेखनीय सुधार करता है, जिससे स्वायत्त निर्णय-निर्माण पाइपलाइनों में बहु-मॉडल अनुमान को एकीकृत करने के लिए एक मापनीय रणनीति उपलब्ध होती है।

Takeaways, Limitations

Takeaways:
हम HyCodePolicy प्रस्तुत करते हैं, जो एक नवीन ढांचा है जो रोबोट हेरफेर नीतियों की मजबूती और नमूना दक्षता में सुधार करने के लिए बहुविध अनुमान का लाभ उठाता है।
एक बंद-लूप प्रोग्रामिंग चक्र को कार्यान्वित करना जो कोड संश्लेषण, ज्यामितीय तर्क, अवधारणात्मक निगरानी और पुनरावृत्त पुनर्प्राप्ति को एकीकृत करता है।
स्व-सही कार्यक्रम संश्लेषण एक संकरित दोहरी प्रतिक्रिया तंत्र के माध्यम से संभव है जो वीएलएम-आधारित अवधारणात्मक प्रतिक्रिया और कार्यक्रम-स्तरीय घटना ट्रैकिंग को जोड़ता है।
स्वायत्त निर्णय-निर्माण पाइपलाइनों में बहुविध अनुमान को एकीकृत करने के लिए एक मापनीय रणनीति प्रदान करना।
Limitations:
HyCodePolicy का प्रदर्शन VLM और प्रयुक्त अन्य घटकों के प्रदर्शन पर निर्भर हो सकता है।
जटिल या अप्रत्याशित विफलता स्थितियों को संभालने की क्षमता सीमित हो सकती है।
सिम्युलेटेड वातावरण में प्रदर्शन वास्तविक दुनिया के वातावरण में सामान्यीकरण की गारंटी नहीं देता है।
वास्तविक रोबोटिक प्रणालियों पर लागू होने पर उत्पन्न होने वाली अतिरिक्त बाधाओं और मुद्दों पर विचार किया जाना चाहिए।
👍