यह शोधपत्र ऑनलाइन वीडियो सामग्री, विशेष रूप से टिकटॉक और विटुत जैसे सोशल मीडिया प्लेटफॉर्म पर, में लिंगभेद का पता लगाने के लिए एक बहुविध दृष्टिकोण प्रस्तुत करता है। हम एक नया स्पेनिश-भाषा बहुविध लिंगभेद पहचान डेटासेट, MuSeD (लगभग 11 घंटे का वीडियो) प्रस्तुत करते हैं, और एक अभिनव एनोटेशन ढाँचा प्रस्तावित करते हैं जो पाठ, वाक् और दृश्य रूपों के योगदान का विश्लेषण करता है। हम लिंगभेद पहचान कार्यों पर विभिन्न बड़े पैमाने के भाषा मॉडल (LLM) और बहुविध LLM का मूल्यांकन करते हैं, और पाते हैं कि दृश्य जानकारी लिंगभेदी सामग्री को चिह्नित करने में महत्वपूर्ण भूमिका निभाती है। हालाँकि ये मॉडल स्पष्ट लिंगभेद का प्रभावी ढंग से पता लगाते हैं, लेकिन वे लिंगभेद के अंतर्निहित रूपों, जैसे रूढ़िवादिता, से जूझते हैं, जो व्याख्याकारों के बीच कम सहमति के अनुरूप है। यह अंतर्निहित लिंगभेद की पहचान करने में अंतर्निहित कठिनाई को रेखांकित करता है, क्योंकि यह सामाजिक और सांस्कृतिक संदर्भ पर निर्भर करता है।