यह शोधपत्र इंटरनेट पर एक गंभीर समस्या, घृणास्पद भाषण वाले मीम्स का स्वचालित रूप से पता लगाने के लिए एक मज़बूत प्रणाली विकसित करने पर केंद्रित है। हालाँकि बड़े पैमाने के मल्टीमॉडल मॉडल (LMM) ने आशाजनक परिणाम दिखाए हैं, फिर भी उन्हें कमज़ोर प्रदर्शन और सीमित क्रॉस-डोमेन सामान्यीकरण जैसी चुनौतियों का सामना करना पड़ता है। इन चुनौतियों का समाधान करने के लिए, हम एक मज़बूत अनुकूली ढाँचा प्रस्तावित करते हैं जो LMM की सामान्य दृष्टि-भाषा क्षमताओं को बनाए रखते हुए डोमेन के भीतर सटीकता और क्रॉस-डोमेन सामान्यीकरण दोनों में सुधार करता है। प्रस्तावित विधि मौजूदा सुपरवाइज्ड फ़ाइन-ट्यूनिंग (SFT) मॉडल की तुलना में प्रतिकूल हमलों के विरुद्ध मज़बूती प्रदर्शित करती है। छह मीम वर्गीकरण डेटासेट पर प्रायोगिक परिणाम दर्शाते हैं कि यह मौजूदा अत्याधुनिक मॉडलों से बेहतर प्रदर्शन करता है और उच्च-गुणवत्ता वाले साक्ष्य उत्पन्न करता है, जिससे मॉडल की व्याख्या क्षमता में वृद्धि होती है।