Cet article aborde le défi de la détection des discours de haine en chinois, qui est confronté à la prévalence croissante des techniques de camouflage sur les réseaux sociaux chinois. L'utilisation généralisée de techniques de camouflage pour contourner les systèmes de détection textuels existants aggrave encore ce défi. Pour y remédier, cet article propose MMBERT, un nouveau cadre multimodal basé sur BERT qui intègre les modalités textuelles, vocales et visuelles via une architecture de mélange d'experts (MoE). Pour remédier à l'instabilité associée à l'intégration directe de MoE dans les modèles basés sur BERT, cet article développe un paradigme d'apprentissage progressif en trois étapes. MMBERT améliore la robustesse face aux perturbations adverses en intégrant des experts spécifiques à chaque modalité, un mécanisme d'auto-attention partagée et une stratégie d'affectation d'experts basée sur un routeur. Les résultats expérimentaux sur plusieurs ensembles de données de discours de haine chinois démontrent que MMBERT surpasse significativement un modèle d'encodeur basé sur BERT affiné, des LLM affinés et des LLM utilisant une approche d'apprentissage contextuel.