दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

M$^2$IV: प्रतिनिधित्व इंजीनियरिंग के माध्यम से कुशल और सूक्ष्म बहुविधीय संदर्भ-आधारित शिक्षण की ओर

Created by
  • Haebom

लेखक

यांशु ली, यी काओ, होंगयांग हे, किसेन चेंग, जियांग फू, शी ज़ियाओ, तियानयांग वांग, रुइक्सियांग तांग

रूपरेखा

यह शोधपत्र M$^2$IV का प्रस्ताव करता है, जो बड़े पैमाने के विज़न-लैंग्वेज मॉडल (LVLM) के लिए मल्टीमॉडल कॉन्टेक्स्ट लर्निंग (ICL) की दक्षता बढ़ाने हेतु एक नवीन प्रतिनिधित्व इंजीनियरिंग तकनीक है। पारंपरिक ICL की टोकन-गहन प्रकृति और जटिल क्रॉस-मोडल फ़्यू-शॉट इंफ़रेंस समस्या का समाधान करने के लिए, M$^2$IV स्पष्ट टोकन-स्तरीय प्रदर्शनों के बजाय, LVLM के अवशिष्ट स्ट्रीम में सीखने योग्य मल्टीमॉडल इन-कॉन्टेक्स्ट वेक्टर्स को सीधे इंजेक्ट करता है। मल्टी-हेड अटेंशन (MHA) और मल्टीलेयर परसेप्ट्रॉन (MLP) की भूमिकाओं का विश्लेषण करके, हम एक प्रशिक्षण रणनीति तैयार करते हैं जो सूक्ष्म-कणयुक्त सिमेंटिक आसवन और सुदृढ़ क्रॉस-मोडल प्रतिनिधित्व लर्निंग को सक्षम बनाती है। M$^2$IV विविध कार्यों और LVLM में प्रदर्शन को बेहतर बनाता है, टोकन ओवरहेड को महत्वपूर्ण रूप से कम करता है और मल्टी-शॉट परिदृश्यों के लिए मापनीयता को बढ़ाता है। इसके अलावा, हम VLibrary को पेश करके प्रयोज्यता को बढ़ाते हैं, जो प्रशिक्षित M$^2$IV को संग्रहीत, पुनर्प्राप्त और उपयोग करता है। प्रायोगिक परिणाम दर्शाते हैं कि M$^2$IV मौजूदा ICL और मौजूदा प्रतिनिधित्व इंजीनियरिंग तकनीकों से बेहतर प्रदर्शन करता है, तथा 3.74% की औसत सटीकता और दक्षता में सुधार प्राप्त करता है।

Takeaways, Limitations

Takeaways:
एक नवीन प्रतिनिधित्व इंजीनियरिंग तकनीक, M$^2$IV, प्रस्तुत की गई है, जो बहुविध संदर्भ अधिगम की दक्षता में महत्वपूर्ण सुधार करती है।
टोकन ओवरहेड को कम करके कई शॉट परिदृश्यों में बेहतर स्केलेबिलिटी।
विभिन्न कार्यों और LVLMs के लिए प्रदर्शन में सुधार (औसत सटीकता में 3.74% सुधार)
वीलाइब्रेरी, उपयोग में आसानी के लिए एक प्रशिक्षित M$^2$IV भंडारण और पुनर्प्राप्ति प्रणाली
Limitations:
M$^2$IV के प्रदर्शन में सुधार विशिष्ट डेटासेट और LVLM पर प्रयोगात्मक परिणामों पर आधारित है, तथा सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
वीलाइब्रेरी की मापनीयता और रख-रखाव पर विचार किया जाना आवश्यक है।
M$^2$IV प्रशिक्षण रणनीतियों को अनुकूलित करने के लिए आगे अनुसंधान की आवश्यकता है।
👍