यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह पत्र एक नवीन प्रशिक्षण ढाँचा और अनुमान अनुकूलन तकनीक प्रस्तुत करता है जो बड़े पैमाने के विज़न वर्बल एक्शन (VLA) मॉडल की दो कमियों को दूर करता है: बड़ी संख्या में टोकन उत्पन्न करने के कारण उच्च अनुमान विलंबता और बढ़ी हुई प्रशिक्षण लागत, और उत्पन्न क्रियाओं के कम उपयोग के कारण खराब प्रदर्शन। प्रस्तावित ढाँचा उच्च समानांतरता के साथ बहुत कम संख्या में क्रिया टोकन उत्पन्न करने के लिए VLA मॉडल को फाइन-ट्यूनिंग करके अनुमान विलंबता और प्रशिक्षण लागत को प्रभावी ढंग से कम करता है। इसके अलावा, एक अनुमान अनुकूलन तकनीक जो एक नवीन मतदान-आधारित समूह रणनीति का उपयोग करती है, वर्तमान और पिछली क्रिया भविष्यवाणियों को मिलाकर उत्पन्न क्रियाओं और समग्र प्रदर्शन का उपयोग बेहतर बनाती है। प्रायोगिक परिणाम दर्शाते हैं कि प्रस्तावित ढाँचा अत्याधुनिक VLA मॉडल से बेहतर प्रदर्शन करता है, जो एज प्लेटफॉर्म पर OpenVLA की तुलना में काफी अधिक सफलता दर और 39 गुना तेज अनुमान गति (46 Hz थ्रूपुट) प्रदर्शित करता है,
Takeaways, Limitations
•
Takeaways:
◦
हम एक कुशल प्रशिक्षण ढांचा प्रस्तुत करते हैं जो वीएलए मॉडल की अनुमान विलंबता और प्रशिक्षण लागत को काफी कम कर देता है।
◦
मतदान-आधारित समूह रणनीतियों के माध्यम से उत्पन्न कार्यों और समग्र प्रदर्शन का बेहतर उपयोग।
◦
एज प्लेटफॉर्म पर उच्च थ्रूपुट (46Hz) और वास्तविक दुनिया परिनियोजन व्यवहार्यता का प्रदर्शन करना।
◦
अत्याधुनिक VLA मॉडलों की तुलना में बेहतर प्रदर्शन प्राप्त करें।
•
Limitations:
◦
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन का आगे सत्यापन आवश्यक है।
◦
विभिन्न रोबोट हेरफेर कार्यों के लिए मापनीयता मूल्यांकन की आवश्यकता है।
◦
विशिष्ट एज प्लेटफॉर्म के लिए अनुकूलन के कारण अन्य प्लेटफॉर्म पर पोर्टेबिलिटी में संभावित सीमाएं।