दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वास्तविक बहुविध संदर्भ-आधारित शिक्षण में दृश्य संदर्भ पर ध्यान देने की आवश्यकता होती है

Created by
  • Haebom

लेखक

शुओ चेन, जियानझे लियू, जेन हान, यान ज़िया, डैनियल क्रेमर्स, फिलिप टोर, वोल्कर ट्रेस्प, जिंदोंग गु

रूपरेखा

यह शोधपत्र बहुविध वृहत्-स्तरीय भाषा मॉडलों (एमएलएलएम) की बहुविध अधिगम संदर्भ (एमआईसीएल) क्षमताओं को बेहतर बनाने पर केंद्रित है। हम देखते हैं कि मौजूदा एमएलएलएम दृश्य जानकारी का लाभ उठाने में कठिनाई महसूस करते हैं और पाठ पैटर्न पर अत्यधिक निर्भर रहते हैं, जिसके परिणामस्वरूप वास्तविक बहुविध अनुकूलन के बजाय केवल पाठ अनुकरण होता है। इन समस्याओं के समाधान के लिए, हम गतिशील ध्यान पुनःआवंटन (डीएआरए) का प्रस्ताव करते हैं, जो एक कुशल फ़ाइन-ट्यूनिंग रणनीति है जो दृश्य और पाठ्य टोकन के बीच ध्यान को पुनर्संतुलित करती है ताकि मॉडल का ध्यान दृश्य संदर्भ पर केंद्रित हो सके। इसके अलावा, हम ट्रूएमआईसीएल, एक एमआईसीएल-विशिष्ट डेटासेट, प्रस्तावित करते हैं जिसमें सटीक कार्य पूर्णता के लिए बहुविध जानकारी, विशेष रूप से दृश्य सामग्री, के एकीकरण की स्पष्ट रूप से आवश्यकता होती है। प्रायोगिक परिणाम दर्शाते हैं कि प्रस्तावित विधि वास्तविक बहुविध अधिगम संदर्भ क्षमताओं में उल्लेखनीय रूप से सुधार करती है।

Takeaways, Limitations

Takeaways:
हम DARA प्रस्तुत करते हैं, जो MLLM की MICL क्षमता में सुधार के लिए एक प्रभावी फाइन-ट्यूनिंग रणनीति है।
ट्रूएमआईसीएल का विमोचन, एक एमआईसीएल-विशिष्ट डेटासेट जिसे स्पष्ट रूप से दृश्य सूचना एकीकरण की आवश्यकता होती है।
ट्रूएमआईसीएल मौजूदा एमआईसीएल आकलन की सीमाओं पर विजय प्राप्त करता है और वास्तविक बहुविध शिक्षण क्षमता आकलन को सक्षम बनाता है।
प्रयोगात्मक रूप से प्रदर्शित किया गया कि DARA और TrueMICL का संयोजन मल्टीमॉडल संदर्भों में MLLM के सीखने के प्रदर्शन में सुधार करता है।
Limitations:
DARA और TrueMICL की प्रभावशीलता विशिष्ट डेटासेट और मॉडलों तक सीमित हो सकती है। अन्य डेटासेट और मॉडलों पर सामान्यीकरण प्रदर्शन की आवश्यकता है।
ट्रूएमआईसीएल डेटासेट पर्याप्त बड़ा नहीं हो सकता है और इसमें अधिक प्रकार की दृश्य जानकारी और कार्यों को शामिल करने के लिए इसे विस्तारित करने की आवश्यकता है।
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या प्रस्तावित विधि सभी प्रकार के एमएलएलएम पर लागू है।
👍