Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Sadeed : Promouvoir la diacritisation arabe grâce à un modèle linguistique simplifié

Created by
  • Haebom

Auteur

Zeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan

Contour

La diacritisation des textes arabes reste un défi persistant en traitement du langage naturel en raison de la richesse des caractéristiques morphologiques de cette langue. Dans cet article, nous présentons Sadeed, un modèle de langage basé uniquement sur un décodeur, affiné sur Kuwain 1.5B. Hennara et al. [2025], un modèle compact entraîné sur un corpus arabe diversifié. Sadeed est affiné sur un ensemble de données contenant des textes diacritisés de haute qualité, soigneusement sélectionnés, générés par des processus rigoureux de nettoyage et de normalisation des données. Malgré une utilisation réduite de ressources de calcul, Sadeed obtient des résultats compétitifs par rapport aux modèles de langage propriétaires à grande échelle et surpasse les modèles existants entraînés dans des domaines similaires. De plus, cet article met en évidence les principales lacunes des pratiques actuelles d'analyse comparative pour la diacritisation de l'arabe. Pour remédier à ces problèmes, nous présentons SadeedDiac-25, un nouveau benchmark conçu pour permettre une évaluation plus juste et plus complète de divers genres de textes et niveaux de complexité. Sadeed et SadeedDiac-25 fournissent une base solide pour faire progresser les applications NLP en arabe, notamment la traduction automatique, la synthèse vocale et les outils d'apprentissage des langues.

Takeaways, Limitations_

Takeaways:
Obtenez des performances comparables aux modèles à grande échelle existants en utilisant des modèles à petite échelle, augmentant ainsi l'efficacité des ressources de calcul.
Création d’ensembles de données de haute qualité grâce à des processus rigoureux de nettoyage et de normalisation des données.
Pratiques d'analyse comparative pour les tâches de collage de symboles phonétiques arabes Limitations et présentation d'une nouvelle référence SadeedDiac-25.
A contribué au développement de diverses applications de PNL en arabe, notamment la traduction automatique, la synthèse vocale et les outils d'apprentissage des langues.
Limitations:
Bien que nous ayons souligné les Limitations des pratiques d'analyse comparative actuelles, des recherches supplémentaires sont nécessaires pour déterminer si SadeedDiac-25 répond pleinement à ces Limitations.
La possibilité que les performances du modèle Sadeed soient biaisées en faveur d’un ensemble de données spécifique.
Manque de description détaillée de la taille et de la diversité de l’ensemble de données utilisé.
👍