यह शोधपत्र बहुविध वृहत्-स्तरीय भाषा मॉडलों (एमएलएलएम) की बहुविध अधिगम संदर्भ (एमआईसीएल) क्षमताओं को बेहतर बनाने पर केंद्रित है। हम देखते हैं कि मौजूदा एमएलएलएम दृश्य जानकारी का लाभ उठाने में कठिनाई महसूस करते हैं और पाठ पैटर्न पर अत्यधिक निर्भर रहते हैं, जिसके परिणामस्वरूप वास्तविक बहुविध अनुकूलन के बजाय केवल पाठ अनुकरण होता है। इन समस्याओं के समाधान के लिए, हम गतिशील ध्यान पुनःआवंटन (डीएआरए) का प्रस्ताव करते हैं, जो एक कुशल फ़ाइन-ट्यूनिंग रणनीति है जो दृश्य और पाठ्य टोकन के बीच ध्यान को पुनर्संतुलित करती है ताकि मॉडल का ध्यान दृश्य संदर्भ पर केंद्रित हो सके। इसके अलावा, हम ट्रूएमआईसीएल, एक एमआईसीएल-विशिष्ट डेटासेट, प्रस्तावित करते हैं जिसमें सटीक कार्य पूर्णता के लिए बहुविध जानकारी, विशेष रूप से दृश्य सामग्री, के एकीकरण की स्पष्ट रूप से आवश्यकता होती है। प्रायोगिक परिणाम दर्शाते हैं कि प्रस्तावित विधि वास्तविक बहुविध अधिगम संदर्भ क्षमताओं में उल्लेखनीय रूप से सुधार करती है।