दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

रोबोमंकी: विज़न-लैंग्वेज-एक्शन मॉडल के लिए टेस्ट-टाइम सैंपलिंग और सत्यापन का स्केलिंग

Created by
  • Haebom

लेखक

जैकी क्वोक, क्रिस्टोफर अगिया, रोहन सिन्हा, मैट फाउटर, शुलु ली, आयन स्टोइका, अज़ालिया मिरहोसिनी, मार्को पावोन

रूपरेखा

यह पेपर असंरचित वास्तविक दुनिया के वातावरण में विज़न-लैंग्वेज-एक्शन (VLA) मॉडल की मजबूती को बेहतर बनाने के लिए एक टेस्ट-टाइम स्केलिंग तकनीक प्रस्तुत करता है। हम अध्ययन करते हैं कि सैंपलिंग और वैलिडेशन के माध्यम से VLA की मजबूती और सामान्यीकरण प्रदर्शन को कैसे बेहतर बनाया जाए, और दिखाते हैं कि एक्शन त्रुटि और उत्पन्न नमूनों की संख्या के बीच संबंध एक घातीय शक्ति कानून का पालन करता है। इसके आधार पर, हम VLA के लिए एक टेस्ट-टाइम स्केलिंग फ्रेमवर्क, रोबोमंकी का प्रस्ताव करते हैं। रोबोमंकी VLA से कई एक्शन सैंपल जेनरेट करता है, गॉसियन नॉइज़ जोड़ता है, बहुमत वोटिंग के माध्यम से एक एक्शन प्रस्ताव वितरण जेनरेट करता है, और फिर VLM-आधारित सत्यापनकर्ता का उपयोग करके इष्टतम एक्शन का चयन करता है। हम एक सिंथेटिक डेटा जेनरेशन पाइपलाइन के माध्यम से एक VLM-आधारित एक्शन सत्यापनकर्ता को प्रशिक्षित करते हैं, और सिमुलेशन और हार्डवेयर प्रयोगों के माध्यम से रोबोमंकी का उपयोग करके VLA के प्रदर्शन में सुधार का प्रदर्शन करते हैं। प्रायोगिक परिणामों से पता चलता है कि वितरण-बाह्य कार्यों में 25% तथा वितरण-बाह्य कार्यों में 9% का पूर्ण प्रदर्शन सुधार हुआ है, तथा यह भी पता चलता है कि VLA तथा एक्शन वेरिफायर को एक साथ फाइन-ट्यूनिंग करने से, नई रोबोट सेटिंग के अनुकूल होने पर, केवल VLA को फाइन-ट्यूनिंग करने की तुलना में, प्रदर्शन में 7% का सुधार हुआ है।

Takeaways, Limitations

_____टी14305_____:
हम रोबोमंकी प्रस्तुत करते हैं, जो एक प्रभावी परीक्षण समय स्केलिंग तकनीक है जो वीएलए मॉडलों की मजबूती और सामान्यीकरण प्रदर्शन में सुधार करती है।
नमूनाकरण और सत्यापन-आधारित दृष्टिकोण के माध्यम से वितरण-बाह्य और वितरण-अंतर्गत दोनों कार्यों पर प्रदर्शन सुधार प्राप्त करें।
सिंथेटिक डेटा का उपयोग करके वीएलएम-आधारित एक्शन वेरिफायर सीखने की उपयोगिता का प्रदर्शन करना।
नए रोबोट विन्यासों के लिए अनुकूलन क्षमता में सुधार करने के लिए वीएलए और एक्शन वेरिफायर की एक साथ फाइन-ट्यूनिंग के लिए एक विधि प्रस्तुत की गई है।
_____टी14306_____:
रोबोमंकी का प्रदर्शन सुधार विशिष्ट प्रयोगात्मक वातावरण और वीएलए मॉडल तक सीमित हो सकता है।
सिंथेटिक डेटा उत्पादन पाइपलाइनों के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
जटिल और विविध वास्तविक दुनिया के वातावरण में रोबोमंकी की मजबूती के लिए और अधिक सत्यापन की आवश्यकता है।
वीएलएम-आधारित सत्यापनकर्ताओं की कम्प्यूटेशनल लागत बढ़ सकती है।
👍