[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

अवतार-अज्ञेय पूर्व-प्रशिक्षित विश्व मॉडल के साथ अव्यक्त नीति संचालन

Created by
  • Haebom

लेखक

यीकी वांग, मृणाल वर्गीस, जेफ श्नाइडर

रूपरेखा

यह शोधपत्र रोबोट की दृश्य-गति नियंत्रण नीति सीखने में डेटा संग्रह की कठिनाई को हल करने के लिए एक अध्ययन है। जहाँ मौजूदा अनुकरण अधिगम विधि के लिए बड़ी मात्रा में प्रशिक्षण डेटा की आवश्यकता होती है, वहीं यह अध्ययन विभिन्न प्रकार के डेटा (रोबोट, मानव) का उपयोग करके डेटा संग्रह की मात्रा को कम करने का एक तरीका प्रस्तावित करता है। मुख्य विचार सबसे पहले, ऑप्टिक फ्लो का उपयोग करके विभिन्न प्रकार के डेटा के साथ विश्व मॉडल (WM) सीखना और लक्ष्य रोबोट के बारे में थोड़ी मात्रा में डेटा के साथ इसे परिष्कृत करना है। दूसरा, WM के अव्यक्त स्थान में एक बेहतर क्रिया क्रम खोजने के लिए अव्यक्त नीति संचालन (LPS) तकनीक के माध्यम से क्रिया प्रतिकृति नीति के आउटपुट में सुधार करना है। प्रायोगिक परिणाम दर्शाते हैं कि सीमित डेटा (30 प्रदर्शन: 50% से अधिक, 50 प्रदर्शन: 20% से अधिक) के साथ सीखी गई नीति का प्रदर्शन, ओपन X-एम्बोडिमेंट डेटासेट या मानव खेल डेटा का उपयोग करके पूर्व-प्रशिक्षित WM के साथ संयुक्त होने पर उल्लेखनीय रूप से बेहतर होता है।

Takeaways, Limitations

Takeaways:
हमने दर्शाया है कि डेटा के विविध रूपों (रोबोट, मानव) का लाभ उठाकर रोबोट दृश्य-मोटर नियंत्रण नीतियों को सीखने के लिए आवश्यक डेटा की मात्रा को काफी कम किया जा सकता है।
हम प्रदर्शित करते हैं कि ऑप्टिकल फ्लो-आधारित WM और LPS तकनीकें सीमित डेटा के साथ भी उच्च प्रदर्शन प्राप्त कर सकती हैं।
प्रस्तावित विधि की प्रभावशीलता वास्तविक रोबोट प्रयोगों के माध्यम से सत्यापित की जाती है।
Limitations:
प्रदर्शन प्रीट्रेनिंग डेटा की गुणवत्ता और मात्रा से प्रभावित हो सकता है, जैसे कि ओपन X-एम्बोडिमेंट डेटासेट या मानव खेल डेटा।
एलपीएस तकनीक की गुप्त अंतरिक्ष अन्वेषण दक्षता पर आगे अनुसंधान की आवश्यकता हो सकती है।
विभिन्न कार्यों और वातावरणों में सामान्यीकरण निष्पादन का आगे मूल्यांकन आवश्यक है।
👍