Este artículo aborda el desafío de detectar el discurso de odio en chino, que se ve dificultado por la creciente prevalencia de técnicas de encubrimiento en las redes sociales chinas. El uso generalizado de técnicas de encubrimiento para eludir los sistemas de detección basados en texto existentes exacerba aún más este desafío. Para abordar esto, este artículo propone MMBERT, un novedoso marco multimodal basado en BERT que integra modalidades de texto, voz y visuales mediante una arquitectura de Mezcla de Expertos (MoE). Para abordar la inestabilidad asociada con la integración directa de MoE en modelos basados en BERT, este artículo desarrolla un paradigma de entrenamiento progresivo de tres etapas. MMBERT mejora la robustez frente a perturbaciones adversarias mediante la incorporación de expertos específicos de la modalidad, un mecanismo de autoatención compartido y una estrategia de asignación de expertos basada en enrutadores. Los resultados experimentales en múltiples conjuntos de datos de discurso de odio chino demuestran que MMBERT supera significativamente a un modelo de codificador basado en BERT afinado, LLM afinados y LLM que utilizan un enfoque de aprendizaje basado en el contexto.