Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MMBERT : BERT multimodal à grande échelle, basé sur un mélange d'experts, pour une détection robuste des discours de haine chinois en cas de perturbations de camouflage

Created by
  • Haebom

Auteur

Qiyao Xue, Yuchen Dou, Ryan Shi, Xiang Lorraine Li, Wei Gao

Contour

Cet article aborde le défi de la détection des discours de haine en chinois, qui est confronté à la prévalence croissante des techniques de camouflage sur les réseaux sociaux chinois. L'utilisation généralisée de techniques de camouflage pour contourner les systèmes de détection textuels existants aggrave encore ce défi. Pour y remédier, cet article propose MMBERT, un nouveau cadre multimodal basé sur BERT qui intègre les modalités textuelles, vocales et visuelles via une architecture de mélange d'experts (MoE). Pour remédier à l'instabilité associée à l'intégration directe de MoE dans les modèles basés sur BERT, cet article développe un paradigme d'apprentissage progressif en trois étapes. MMBERT améliore la robustesse face aux perturbations adverses en intégrant des experts spécifiques à chaque modalité, un mécanisme d'auto-attention partagée et une stratégie d'affectation d'experts basée sur un routeur. Les résultats expérimentaux sur plusieurs ensembles de données de discours de haine chinois démontrent que MMBERT surpasse significativement un modèle d'encodeur basé sur BERT affiné, des LLM affinés et des LLM utilisant une approche d'apprentissage contextuel.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre multimodal (MMBERT) qui améliore considérablement les performances de détection des discours de haine sur les réseaux sociaux chinois.
Améliorer la stabilité des modèles basés sur BERT et garantir la robustesse contre les attaques adverses grâce à l'architecture MoE et à un paradigme de formation progressive en trois étapes.
Améliorer les performances de détection complète des discours de haine en intégrant plusieurs modalités (texte, voix et visuel).
Démontre des performances supérieures par rapport aux approches monomodales ou mono-LLM existantes.
Limitations:
L’évaluation des performances de MMBERT est limitée à un ensemble de données chinoises spécifique, ce qui nécessite des recherches supplémentaires sur sa généralisabilité.
Augmentation potentielle du temps de formation et de la consommation de ressources en raison de la complexité du paradigme de formation progressive en trois étapes.
D’autres expériences et analyses sont nécessaires pour déterminer les performances de généralisation de MMBERT par rapport à diverses techniques de déguisement.
La validation de l’évolutivité vers d’autres langues ou d’autres plateformes de médias sociaux est requise.
👍