दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वोट: ट्रैजेक्टरी एनसेंबल वोटिंग के साथ विज़न-भाषा-क्रिया अनुकूलन

Created by
  • Haebom

लेखक

जुई लिन, अमीर ताहेरिन, अराश अकबरी, अरमान अकबरी, लेई लू, गुआंगयु चेन, तस्कीन पदिर, ज़ियाओमेंग यांग, वेईवेई चेन, यिकियान ली, ज़ू लिन, डेविड कैली, पु झाओ, यान्झी वांग

रूपरेखा

यह पत्र एक नवीन प्रशिक्षण ढाँचा और अनुमान अनुकूलन तकनीक प्रस्तुत करता है जो बड़े पैमाने के विज़न वर्बल एक्शन (VLA) मॉडल की दो कमियों को दूर करता है: बड़ी संख्या में टोकन उत्पन्न करने के कारण उच्च अनुमान विलंबता और बढ़ी हुई प्रशिक्षण लागत, और उत्पन्न क्रियाओं के कम उपयोग के कारण खराब प्रदर्शन। प्रस्तावित ढाँचा उच्च समानांतरता के साथ बहुत कम संख्या में क्रिया टोकन उत्पन्न करने के लिए VLA मॉडल को फाइन-ट्यूनिंग करके अनुमान विलंबता और प्रशिक्षण लागत को प्रभावी ढंग से कम करता है। इसके अलावा, एक अनुमान अनुकूलन तकनीक जो एक नवीन मतदान-आधारित समूह रणनीति का उपयोग करती है, वर्तमान और पिछली क्रिया भविष्यवाणियों को मिलाकर उत्पन्न क्रियाओं और समग्र प्रदर्शन का उपयोग बेहतर बनाती है। प्रायोगिक परिणाम दर्शाते हैं कि प्रस्तावित ढाँचा अत्याधुनिक VLA मॉडल से बेहतर प्रदर्शन करता है, जो एज प्लेटफॉर्म पर OpenVLA की तुलना में काफी अधिक सफलता दर और 39 गुना तेज अनुमान गति (46 Hz थ्रूपुट) प्रदर्शित करता है,

Takeaways, Limitations

Takeaways:
हम एक कुशल प्रशिक्षण ढांचा प्रस्तुत करते हैं जो वीएलए मॉडल की अनुमान विलंबता और प्रशिक्षण लागत को काफी कम कर देता है।
मतदान-आधारित समूह रणनीतियों के माध्यम से उत्पन्न कार्यों और समग्र प्रदर्शन का बेहतर उपयोग।
एज प्लेटफॉर्म पर उच्च थ्रूपुट (46Hz) और वास्तविक दुनिया परिनियोजन व्यवहार्यता का प्रदर्शन करना।
अत्याधुनिक VLA मॉडलों की तुलना में बेहतर प्रदर्शन प्राप्त करें।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन का आगे सत्यापन आवश्यक है।
विभिन्न रोबोट हेरफेर कार्यों के लिए मापनीयता मूल्यांकन की आवश्यकता है।
विशिष्ट एज प्लेटफॉर्म के लिए अनुकूलन के कारण अन्य प्लेटफॉर्म पर पोर्टेबिलिटी में संभावित सीमाएं।
👍