दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

रोबिक्स: रोबोट इंटरैक्शन, तर्क और योजना के लिए एक एकीकृत मॉडल

Created by
  • Haebom

लेखक

हुआंग फैंग, मेंग्शी झांग, हेंग डोंग, वेई ली, ज़िक्सुआन वांग, क्यूफ़ेंग झांग, ज़ुएयुन तियान, युचेंग हू, हैंग ली

रूपरेखा

रोबिक्स एक एकीकृत मॉडल है जो रोबोटिक तर्क, कार्य नियोजन और प्राकृतिक भाषा अंतःक्रिया को एक एकल दृष्टि-भाषा संरचना में एकीकृत करता है। एक पदानुक्रमित रोबोटिक प्रणाली में एक उच्च-स्तरीय संज्ञानात्मक परत के रूप में कार्य करते हुए, रोबिक्स गतिशील रूप से निम्न-स्तरीय नियंत्रकों के लिए परमाणु आदेश और मानव अंतःक्रिया के लिए मौखिक प्रतिक्रियाएँ उत्पन्न करता है, जिससे रोबोट जटिल निर्देशों का पालन कर सकते हैं, दीर्घकालिक कार्यों की योजना बना सकते हैं, और एक संपूर्ण ढाँचे के भीतर मनुष्यों के साथ स्वाभाविक रूप से अंतःक्रिया कर सकते हैं। रोबिक्स अतिरिक्त नवीन क्षमताओं का परिचय देता है, जैसे कार्य निष्पादन के दौरान सक्रिय बातचीत, वास्तविक समय में व्यवधान प्रबंधन, और संदर्भ-जागरूक सामान्य ज्ञान तर्क। अपने मूल में, रोबिक्स विचार-श्रृंखला तर्क का लाभ उठाता है और तीन-चरणीय प्रशिक्षण रणनीति का उपयोग करता है: (1) बुनियादी कार्यान्वयन तर्क क्षमताओं को बढ़ाने के लिए निरंतर पूर्व-प्रशिक्षण, जिसमें त्रि-आयामी स्थानिक समझ, दृश्य-आधारित और कार्य-उन्मुख तर्क शामिल हैं; (2) मानव-रोबोट अंतःक्रिया और कार्य नियोजन को एकीकृत तर्क-क्रिया अनुक्रमों के रूप में मॉडल करने के लिए पर्यवेक्षित फ़ाइन-ट्यूनिंग; और (3) तर्क-क्रिया स्थिरता और दीर्घकालिक कार्य स्थिरता में सुधार के लिए सुदृढीकरण अधिगम। व्यापक प्रयोगों से पता चलता है कि रोबिक्स इंटरैक्टिव कार्यों को निष्पादित करने में ओपन-सोर्स और वाणिज्यिक बेंचमार्क (जैसे, जीपीटी-4o और जेमिनी 2.5 प्रो) से बेहतर प्रदर्शन करता है, विभिन्न प्रकार के निर्देश (जैसे, खुला, बहु-चरण, बाध्य, शून्य और बाधित) और विभिन्न उपयोगकर्ता-संबंधित कार्यों जैसे टेबल की सफाई, किराने की खरीदारी और आहार फ़िल्टरिंग में मजबूत सामान्यीकरण का प्रदर्शन करता है।

Takeaways, Limitations

Takeaways:
हम एक एकीकृत मॉडल प्रस्तुत करते हैं जो रोबोटिक तर्क, कार्य योजना और प्राकृतिक भाषा अंतःक्रिया को एकल दृष्टि-भाषा वास्तुकला में एकीकृत करता है।
पूर्व-वार्तालाप, वास्तविक समय व्यवधान प्रबंधन, तथा संदर्भ-सचेत सामान्य ज्ञान तर्क जैसी नई सुविधाओं का परिचय।
विभिन्न प्रकार के कार्यों और अनुदेशों में मजबूत सामान्यीकरण प्रदर्शन का प्रदर्शन किया।
ओपन सोर्स और वाणिज्यिक बेंचमार्क मॉडल की तुलना में बेहतर प्रदर्शन प्राप्त करता है।
Limitations:
इस पेपर में Limitations या भविष्य के अनुसंधान निर्देशों के विशिष्ट संदर्भों का अभाव है।
प्रयोगात्मक वातावरण और डेटासेट का विस्तृत विवरण आवश्यक है।
मॉडल की मापनीयता और वास्तविक दुनिया के वातावरण में प्रयोज्यता पर आगे अनुसंधान की आवश्यकता है।
👍