दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

अनुकूलन-आधारित प्रदर्शनों का उपयोग करके बल और दृष्टि प्रतिक्रिया के साथ पिवोटिंग हेरफेर सीखना

Created by
  • Haebom

लेखक

युकी शिराई, केई ओटा, देवेश के. झा, डिएगो रोमेरेस

रूपरेखा

यह शोधपत्र एक नवीन ढाँचा प्रस्तुत करता है जो गैर-अभ्यास-आधारित हेरफेर की समस्या को हल करने के लिए मॉडल-आधारित और अधिगम-आधारित दृष्टिकोणों को जोड़ता है। मॉडल-आधारित दृष्टिकोणों की दक्षता को अधिगम-आधारित दृष्टिकोणों की सुदृढ़ता के साथ संयोजित करके, हम कम्प्यूटेशनल रूप से कुशल संपर्क निहित प्रक्षेप पथ अनुकूलन (CITO) पर आधारित एक प्रदर्शन-निर्देशित गहन सुदृढीकरण अधिगम (RL) डिज़ाइन करके नमूना-कुशल अधिगम प्राप्त करते हैं, जो स्पष्ट रूप से संपर्क बिंदुओं पर विचार करता है। इसके अलावा, हम एक विशेषाधिकार प्राप्त प्रशिक्षण रणनीति का उपयोग करते हुए एक सिमुलेशन-टू-रियल ट्रांसफर दृष्टिकोण प्रस्तुत करते हैं जो एक रोबोट को विशेषाधिकार प्राप्त जानकारी (जैसे, वस्तु का द्रव्यमान, आकार, या मुद्रा) के बिना, केवल प्रोप्रियोसेप्शन, दृष्टि और बल संवेदन का उपयोग करके पिवट हेरफेर करने में सक्षम बनाता है। कई पिवट कार्यों पर मूल्यांकन सिमुलेशन-टू-रियल ट्रांसफर के सफल कार्यान्वयन को प्रदर्शित करता है। अधिक जानकारी YouTube लिंक पर दिए गए वीडियो में मिल सकती है।

Takeaways, Limitations

Takeaways:
मॉडल-आधारित और सीखने-आधारित दृष्टिकोणों के लाभों को मिलाकर, हम गैर-संपर्क हेरफेर समस्या के लिए एक कुशल और मजबूत समाधान प्रस्तुत करते हैं।
CITO और डेमो-निर्देशित RL का उपयोग करके नमूना-कुशल शिक्षण प्राप्त करें।
हम विशेषाधिकार प्राप्त जानकारी के बिना सिमुलेशन-से-वास्तविक संक्रमण को सफलतापूर्वक निष्पादित करने के लिए एक विधि प्रस्तुत करते हैं।
हम वास्तविक रोबोट प्रणाली में प्रयोगात्मक परिणामों के माध्यम से प्रदर्शन को सत्यापित करते हैं।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन को निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न वातावरणों और वस्तुओं के प्रति मजबूती को और बेहतर बनाने की आवश्यकता है।
विशेषाधिकार प्रशिक्षण रणनीतियों की निर्भरता प्रणाली की मापनीयता को सीमित कर सकती है।
👍