दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

SimpleVLA-RL: सुदृढीकरण सीखने के माध्यम से VLA प्रशिक्षण का विस्तार

Created by
  • Haebom

लेखक

हाओझान ली, युक्सिन ज़ुओ, जियाले यू, युहाओ झांग, झाओहुई यांग, काइयन झांग, ज़ुएकाई झू, युचेन झांग, तियानक्सिंग चेन, गांकू कुई, देहुई वांग, डिंगज़ियांग लुओ, युचेन फैन, यूबैंग सन, जिया ज़ेंग, जियांगमियाओ पांग, शांगहांग झांग, यू वांग, याओ म्यू, बोवेन झोउ, निंग डिंग

रूपरेखा

यह शोधपत्र SimpleVLA-RL ढाँचे का प्रस्ताव करता है, जो सुदृढीकरण अधिगम (RL) के माध्यम से विज़न-लैंग्वेज-एक्शन (VLA) मॉडलों की दीर्घकालिक चरण-दर-चरण कार्य-योजना को सुदृढ़ करता है। मौजूदा VLA मॉडलों की बड़े पैमाने पर पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) पर निर्भरता और वितरण परिवर्तनों के सामान्यीकरण में उनकी कठिनाई को दूर करने के लिए, हम veRL पर आधारित VLA-विशिष्ट प्रक्षेपवक्र नमूनाकरण, मापनीय समानांतरीकरण, बहु-परिवेश रेंडरिंग और अनुकूलित हानि संगणन प्रस्तुत करते हैं। OpenVLA-OFT पर लागू SimpleVLA-RL, LIBERO पर अत्याधुनिक प्रदर्शन प्राप्त करता है और एक खोजपूर्ण बूस्टिंग रणनीति के माध्यम से RoboTwin 1.0 और 2.0 पर $\pi_0$ से बेहतर प्रदर्शन करता है। इसके अलावा, हम "पुशकट" नामक एक नवीन परिघटना की पहचान करते हैं, जो RL प्रशिक्षण के दौरान अनदेखे पैटर्न की खोज करती है। यह परिघटना बड़े पैमाने पर डेटा निर्भरता में कमी, सुदृढ़ सामान्यीकरण और वास्तविक दुनिया के कार्यों पर SFT से बेहतर प्रदर्शन को सक्षम बनाती है।

Takeaways, Limitations

Takeaways:
हम प्रदर्शित करते हैं कि वीएलए मॉडल की दीर्घकालिक नियोजन क्षमता को सुदृढीकरण सीखने के माध्यम से प्रभावी ढंग से सुधारा जा सकता है।
बड़े पैमाने पर एसएफटी डेटा पर निर्भरता कम करता है और वितरण बदलावों के खिलाफ मजबूत सामान्यीकरण प्रदर्शन प्राप्त करता है।
यह वास्तविक दुनिया के रोबोटिक कार्यों में SFT-आधारित मॉडलों से बेहतर प्रदर्शन करता है।
हमने आर.एल. प्रशिक्षण के दौरान एक नए व्यवहार पैटर्न, "पुशकट" परिघटना की खोज करके वी.एल.ए. मॉडल की क्षमता को और बढ़ाया है।
Limitations:
SimpleVLA-RL का प्रदर्शन सुधार कुछ वातावरणों (LIBERO, RoboTwin) तक सीमित हो सकता है।
"पुशकट" घटना की व्यापकता और कारणों पर आगे शोध की आवश्यकता है।
विभिन्न रोबोट प्लेटफार्मों और कार्यों के लिए अतिरिक्त सामान्यीकरण प्रदर्शन मूल्यांकन की आवश्यकता है।
👍