यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
रोबोट्विन 2.0, स्केलेबल ड्यूल-आर्म मैनिपुलेशन के लिए एक बड़े पैमाने का, विविध और यथार्थवादी डेटा जेनरेशन फ्रेमवर्क है। मौजूदा डेटासेट की सीमाओं (स्केलेबल टास्क जेनरेशन विधियों का अभाव और अति-सरलीकृत सिमुलेशन वातावरण) को दूर करने के लिए, हमने एक मल्टीमॉडल लैंग्वेज मॉडल (MLLM) और रोबोट्विन-OD ऑब्जेक्ट लाइब्रेरी पर आधारित सिमुलेशन-आधारित परिशोधन का उपयोग करते हुए एक विशेषज्ञ डेटा संश्लेषण पाइपलाइन डिज़ाइन की, जिसमें 731 ऑब्जेक्ट इंस्टेंस (147 श्रेणियां) शामिल हैं। हमने सिमुलेशन-से-वास्तविकता हस्तांतरण को बेहतर बनाने और डेटा विविधता एवं नीतिगत मजबूती को बढ़ाने के लिए पाँच अक्षों (क्लटर, लाइटिंग, बैकग्राउंड, टेबल की ऊँचाई और भाषा) पर संरचित डोमेन रैंडमाइज़ेशन लागू किया। इस फ्रेमवर्क को 50 ड्यूल-आर्म टास्क और पाँच रोबोट मॉडल पर लागू करके, हमने कोड जेनरेशन की सफलता दर में 10.9% सुधार, सिंथेटिक डेटा और 10 वास्तविक-विश्व डेमो का उपयोग करके VLA मॉडल को प्रशिक्षित करते समय 367% सापेक्ष प्रदर्शन सुधार, और केवल सिंथेटिक डेटा पर प्रशिक्षित ज़ीरो-शॉट मॉडल की तुलना में 228% प्रदर्शन सुधार प्राप्त किया। हम डेटा जनरेटर, बेंचमार्क, डेटासेट और कोड जारी करके स्केलेबल, मजबूत दोहरे-आर्म हेरफेर अनुसंधान का समर्थन करते हैं।
Takeaways, Limitations
•
Takeaways:
◦
स्केलेबल दोहरे-आर्म हेरफेर के लिए बड़े पैमाने पर, विविध और यथार्थवादी सिंथेटिक डेटा उत्पादन ढांचा प्रदान करना।
◦
मल्टीमॉडल भाषा मॉडल और सिमुलेशन-आधारित सुधारों का उपयोग करके एक कुशल कार्य निर्माण पाइपलाइन प्रस्तुत की गई है।
◦
संरचित डोमेन यादृच्छिकीकरण के माध्यम से सिमुलेशन-से-वास्तविक संक्रमण प्रदर्शन में सुधार करना और पर्यावरणीय परिवर्तनों के प्रति मजबूती सुनिश्चित करना।
◦
सिंथेटिक डेटा का उपयोग करके प्रभावी नीति सीखना और शून्य-शॉट प्रदर्शन में सुधार।
◦
डेटा जनरेटर, बेंचमार्क, डेटासेट और कोड प्रकटीकरण के माध्यम से अनुसंधान साझाकरण और मापनीयता प्रदान करना।
•
Limitations:
◦
वर्तमान में समर्थित रोबोट मॉडल और कार्यों की विविधता सीमित हो सकती है।
◦
वास्तविक वातावरण के साथ पूर्णतः मेल प्राप्त करना कठिन है, इसलिए वास्तविक वातावरण पर लागू करते समय अतिरिक्त समायोजन की आवश्यकता हो सकती है।
◦
डेटा उत्पादन की गुणवत्ता MLLM के प्रदर्शन से प्रभावित हो सकती है।
◦
संरचित डोमेन यादृच्छिकीकरण के दायरे को और अधिक विस्तारित करने की आवश्यकता है।