दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एनएलकेआई: कॉमनसेंस वीक्यूए कार्यों में छोटे वीएलएम को बेहतर बनाने के लिए एक हल्का प्राकृतिक भाषा ज्ञान एकीकरण ढांचा

Created by
  • Haebom

लेखक

अरित्रा दत्ता, स्वप्ननील मुखर्जी, दीपनवे घोषाल, सोमक आदित्य

रूपरेखा

यह शोधपत्र सामान्य ज्ञान दृश्य प्रश्नोत्तर (VQA) में लघु-स्तरीय दृश्य-भाषा मॉडल (sVLM) के प्रदर्शन को बेहतर बनाने के लिए एक संपूर्ण ढाँचा (NLKI) प्रस्तुत करता है। NLKI प्राकृतिक भाषा तथ्यों को प्राप्त करके, LLM का उपयोग करके प्राकृतिक भाषा स्पष्टीकरण उत्पन्न करके, और इन संकेतों को sVLM को भेजकर कार्य करता है। तथ्य पुनर्प्राप्ति के लिए ColBERTv2 और इकाई-समृद्ध संकेतों का लाभ उठाते हुए, उत्पन्न स्पष्टीकरण भ्रम को कम करते हैं और सटीकता में 7% तक सुधार करते हैं। इसके अलावा, नॉइज़-रोबस्ट लॉस फ़ंक्शन का उपयोग करके और अधिक सूक्ष्म समायोजन करके, हम CRIC डेटासेट पर 2.5% और AOKVQA डेटासेट पर 5.5% की सटीकता में सुधार प्राप्त करते हैं, जिससे FLAVA जैसे sVLM का प्रदर्शन Qwen-2 VL-2B और SmolVLM-2.5B जैसे मध्यम आकार के VLM के स्तर पर आ जाता है। यह अध्ययन दर्शाता है कि एलएलएम-आधारित सामान्य ज्ञान, सामान्य ज्ञान आधार पुनर्प्राप्ति की तुलना में अधिक प्रभावी है, शोर-जागरूक शिक्षण बाहरी ज्ञान वृद्धि स्थितियों में छोटे मॉडलों की स्थिरता को बढ़ाता है, और पैरामीटर-कुशल सामान्य ज्ञान अनुमान 250 मिलियन पैरामीटर वाले मॉडल में भी संभव है।

____T212_____, ____T213_____

Takeaways:
हम एलएलएम-आधारित सामान्य ज्ञान एकीकरण के माध्यम से छोटे दृश्य-भाषा मॉडल के सामान्य ज्ञान वीक्यूए प्रदर्शन में सुधार की संभावना प्रस्तुत करते हैं।
हम प्रदर्शित करते हैं कि शोर-प्रतिरोधी हानि फ़ंक्शन का उपयोग करके फ़ाइन-ट्यूनिंग छोटे मॉडलों के प्रदर्शन को बेहतर बनाने में प्रभावी है।
हम यह प्रदर्शित करते हैं कि 250 मिलियन पैरामीटर वाले मॉडलों में भी पैरामीटर-कुशल सामान्य ज्ञान अनुमान संभव है।
हमारा सुझाव है कि एलएलएम का उपयोग करके सामान्य ज्ञान को एकीकृत करना, सामान्य ज्ञान के आधारों की खोज करने से अधिक प्रभावी हो सकता है।
Limitations:
उपयोग किये गये डेटासेट में लेबल शोर की समस्या है, जिसके लिए आगे विश्लेषण की आवश्यकता है।
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन का आगे सत्यापन आवश्यक है।
विभिन्न प्रकार के एसवीएलएम पर प्रयोगों की आवश्यकता है और मॉडल विशेषताओं के अनुसार प्रदर्शन अंतर का विश्लेषण किया जाता है।
👍