Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Surmonter la pénurie de données dans la modélisation générative du langage pour les langues à faibles ressources : une revue systématique

Created by
  • Haebom

Auteur

Josh McGiff, Nikola S. Nikolov

Contour

Cet article présente la première revue systématique des stratégies visant à résoudre le problème de pénurie de données dans la modélisation générative du langage pour les langues à faibles ressources (LRL). En nous appuyant sur 54 études, nous identifions, catégorisons et évaluons les approches techniques, notamment l'augmentation des données monolingues, la rétrotraduction, l'apprentissage multilingue et l'ingénierie des invites, pour les tâches génératives. Nous analysons également les tendances en matière de choix d'architecture, de représentation des familles de langues et de méthodes d'évaluation. Nous concluons en soulignant la forte dépendance aux modèles basés sur les transformateurs, la concentration sur un petit nombre de LRL et le manque d'évaluation cohérente entre les études. Nous formulons des recommandations pour étendre ces méthodes à un plus large éventail de LRL et soulignons les défis non résolus de la construction de systèmes linguistiques génératifs équitables. En fin de compte, cette revue vise à aider les chercheurs et les développeurs à créer des outils d'IA complets pour les utilisateurs de langues à faibles ressources.

Takeaways, Limitations_

Takeaways: En examinant et en analysant systématiquement diverses approches techniques visant à résoudre le problème de pénurie de données dans la modélisation générative du langage pour les langues à faibles ressources, nous proposons des pistes de recherche dans ce domaine. Nous évaluons l'efficacité des techniques d'apprentissage multilingue et d'augmentation des données, et suggérons des pistes de recherche futures. Cela peut contribuer à la création d'outils d'IA complets pour les utilisateurs de langues à faibles ressources.
Limitations : Forte dépendance aux modèles basés sur les transformateurs, nombre limité de LRL à analyser, absence de critères d'évaluation cohérents entre les études. Des recherches sur des LRL et des tâches génératives plus diversifiés sont nécessaires.
👍