दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

दृष्टि-भाषा मॉडल के लिए सामान्य सतत स्मृति की ओर

Created by
  • Haebom

लेखक

वेनी वू, ज़िक्सुआन सॉन्ग, कुन झोउ, यिफ़ेई शाओ, ज़िटिंग हू, बिवेई हुआंग

रूपरेखा

इस पत्र में, हम एक बाह्य स्मृति प्रणाली का प्रस्ताव करते हैं जो बहुविध और बहुभाषी वास्तविक-विश्व ज्ञान को कुशलतापूर्वक प्रदान करती है ताकि मौजूदा भाषा मॉडल (एलएम) और दृश्य-भाषा मॉडल (वीएलएम) की सीमाओं का समाधान किया जा सके जो जटिल अनुमान कार्यों को करने में कठिनाई का सामना करते हैं। जहाँ मौजूदा विधियाँ छवियों और पाठ टोकनों को लंबे अनुक्रमों में संयोजित करती हैं, वहीं इस पत्र में, हम बहुविध और बहुभाषी ज्ञान को अधिक प्रभावी और कुशलतापूर्वक प्रस्तुत करने के लिए सघन एम्बेडिंग के एक सघन समूह, सतत स्मृति का उपयोग करते हैं। मुख्य विचार यह है कि वीएलएम स्वयं एक सतत स्मृति एनकोडर के रूप में कार्य कर सकता है। यह जटिल बहुविध अनुमान कार्यों के प्रदर्शन में सुधार करता है, और हम केवल 1.2% मॉडल पैरामीटर और 15.6K स्व-संश्लेषित नमूनों का उपयोग करके वीएलएम को एक स्मृति एनकोडर के रूप में परिष्कृत करने के लिए एक डेटा- और पैरामीटर-कुशल विधि प्रस्तुत करते हैं। प्रस्तावित विधि, जिसे CoMEM कहा जाता है, मनमाने बहुविध और बहुभाषी ज्ञान को केवल आठ सतत एम्बेडिंग में एनकोड करती है, और अनुमान के दौरान वीएलएम स्थिर रहता है, जिससे इसे प्लग-एंड-प्ले तरीके से लचीले ढंग से एकीकृत किया जा सकता है। हम आठ मल्टीमॉडल अनुमान मानकों पर व्यापक प्रयोगों के माध्यम से अपने दृष्टिकोण की प्रभावशीलता को प्रदर्शित करते हैं।

Takeaways, Limitations

Takeaways:
वीएलएम का कुशलतापूर्वक उपयोग करने वाली अनुक्रमिक मेमोरी प्रणाली के माध्यम से जटिल बहु-मोडल अनुमान कार्यों के प्रदर्शन में सुधार प्राप्त करना।
हम एक डेटा और पैरामीटर-कुशल फ़ाइन-ट्यूनिंग विधि प्रस्तुत करते हैं।
प्लग-एंड-प्ले मॉड्यूल के साथ लचीला एकीकरण।
विभिन्न बहु-मोडल अनुमान बेंचमार्क पर प्रभावी सिद्ध।
Limitations:
हमारे अपने सिंथेटिक डेटा पर निर्भर फाइन-ट्यूनिंग विधियों के सामान्यीकरण प्रदर्शन पर आगे सत्यापन की आवश्यकता है।
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या सतत मेमोरी (8 एम्बेडिंग) का आकार सभी प्रकार के जटिल अनुमान कार्यों के लिए पर्याप्त है।
किसी विशिष्ट VLM आर्किटेक्चर पर निर्भरता हो सकती है।
👍