Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Classification des dialectes arabes à l'aide de réseaux de neurones rénaux (RNN), de transformateurs et de grands modèles linguistiques : une analyse comparative

Created by
  • Haebom

Auteur

Omar A. Essameldin, Ali O. Elbeih, Wael H. Gomaa, Wael F. Elsersy

Contour

Cet article aborde le problème de la classification de 18 dialectes arabes parlés dans 22 pays. À partir de tweets arabes issus de la base de données QADI, nous construisons et testons des modèles linguistiques à grande échelle (LLM) à l'aide de RNN, de modèles Transformer et de l'ingénierie des prompts. Le modèle MARBERTv2 obtient les meilleures performances avec une précision de 65 % et un score F1 de 64 %. Grâce aux derniers modèles de traitement automatique du langage (TALN) et à des techniques de prétraitement de pointe, nous identifions les principaux problèmes linguistiques liés à l'identification des dialectes arabes.

Takeaways, Limitations

Takeaways:
Cela pourrait contribuer à des applications telles que des chatbots personnalisés qui répondent au dialecte des utilisateurs, à la surveillance des médias sociaux et à l'amélioration de l'accessibilité pour les arabophones.
Nous proposons une méthode pour améliorer la précision de l’identification des dialectes arabes en utilisant les derniers modèles NLP et techniques de prétraitement.
Limitations:
La précision (65%) et le score F1 (64%) du modèle MARBERTv2 ne sont pas encore parfaits et il y a une marge d'amélioration.
Il peut y avoir des problèmes de déséquilibre des données pour certains dialectes arabes.
Les performances peuvent varier en fonction de la taille et de la diversité de l’ensemble de données utilisé.
👍