Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

L'état des grands modèles linguistiques pour les langues africaines : progrès et défis

Created by
  • Haebom

Auteur

Kedir Yassin Hussen, Walelign Tewabe Sewunetie, Abinew Ali Ayele, Sukairaj Hafiz Imam, Shamsuddeen Hassan Muhammad, Seid Muhie Yimam

Contour

Cet article analyse l'applicabilité des modèles linguistiques à grande échelle (LLM) à environ 2 000 langues sous-dotées en Afrique. En comparant et en analysant six LLM, huit modèles linguistiques à petite échelle (SLM) et six SLM spécialisés (SSLM), nous évaluons l'état actuel de la prise en charge des langues africaines, les jeux de données d'entraînement, les limitations techniques, les problèmes de caractères et les feuilles de route de la modélisation linguistique. Les résultats de l'analyse montrent que, bien que 42 langues africaines soient prises en charge et que 23 jeux de données publics existent, il existe encore un écart important dans la prise en charge de plus de 98 % des langues africaines. De plus, il est souligné que seuls les alphabets latin, arabe et ge’ez sont pris en charge, et que plus de 20 alphabets actifs sont ignorés. Les principaux problèmes présentés sont l'insuffisance des données, le biais de tokenisation, le coût de calcul élevé et les problèmes d'évaluation.

Takeaways, Limitations

Takeaways:
Présente une grave pénurie de candidatures au LLM dans les langues africaines à faibles ressources.
Souligne la nécessité de développer des ensembles de données, une normalisation linguistique et des méthodes d’adaptation efficaces pour soutenir les langues africaines.
ÉValuer l’état actuel du soutien aux langues africaines et suggérer des orientations de recherche futures.
____T46_____:
Le nombre de modèles analysés peut être limité.
Il se peut qu’il ne reflète pas pleinement la diversité des langues africaines.
Manque de solutions spécifiques pour résoudre le problème présenté.
👍