यह शोधपत्र चीनी भाषा में घृणास्पद भाषणों का पता लगाने की चुनौती पर केंद्रित है, जो चीनी सोशल नेटवर्क पर छद्म तकनीकों के बढ़ते प्रचलन से और भी चुनौतीपूर्ण हो गया है। मौजूदा टेक्स्ट-आधारित पहचान प्रणालियों को दरकिनार करने के लिए छद्म तकनीकों का व्यापक उपयोग इस चुनौती को और बढ़ा देता है। इस समस्या के समाधान के लिए, यह शोधपत्र MMBERT का प्रस्ताव करता है, जो एक नवीन BERT-आधारित बहुविध ढाँचा है जो विशेषज्ञों के मिश्रण (MoE) आर्किटेक्चर के माध्यम से टेक्स्ट, वाक् और दृश्य तौर-तरीकों को एकीकृत करता है। BERT-आधारित मॉडलों में MoE को सीधे एकीकृत करने से जुड़ी अस्थिरता को दूर करने के लिए, यह शोधपत्र एक त्रि-चरणीय प्रगतिशील प्रशिक्षण प्रतिमान विकसित करता है। MMBERT, तौर-तरीके-विशिष्ट विशेषज्ञों, एक साझा स्व-ध्यान तंत्र और एक राउटर-आधारित विशेषज्ञ असाइनमेंट रणनीति को शामिल करके प्रतिकूल विक्षोभों के विरुद्ध दृढ़ता को बढ़ाता है। कई चीनी घृणास्पद भाषण डेटासेट पर प्रायोगिक परिणाम दर्शाते हैं कि MMBERT एक परिष्कृत BERT-आधारित एनकोडर मॉडल, परिष्कृत LLM और संदर्भ-आधारित शिक्षण दृष्टिकोण का उपयोग करने वाले LLM से काफी बेहतर प्रदर्शन करता है।