Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Encourager les phonèmes : améliorer le multilinguisme des LLM pour les langues non latines

Created by
  • Haebom

Auteur

Hoang H Nguyen, Khyati Mahajan, Vikas Yadav, Julian Salazar, Philip S. Yu, Masoud Hashemi, Rishabh Maheshwary

Contour

Les modèles linguistiques multilingues à grande échelle (MLH) ont obtenu des performances impressionnantes lors de plusieurs tests, mais restent sous-performants dans les langues utilisant des écritures non latines. En effet, les LH sont pré-entraînés principalement sur des écritures orthographiques composées d'écritures latines, masquant ainsi les caractéristiques phonologiques communes avec les écritures non latines. Dans cette étude, nous proposons une méthode permettant de dériver des représentations indépendantes du système d'écriture en exploitant les transcriptions phonémiques comme indice complémentaire. Les résultats expérimentaux montrent que l'intégration d'indices phonémiques améliore les performances en écritures latines et non latines, et réduit significativement l'écart de performance entre les deux systèmes d'écriture. Des expériences détaillées montrent que les écritures phonémiques et orthographiques recherchent des exemples différents pour l'apprentissage en contexte (ICL). Cela nous amène à proposer une stratégie de récupération ICL hybride qui agrège en outre les résultats récupérés à partir des écritures phonémiques et orthographiques, ce qui améliore considérablement les performances par rapport à la récupération ICL aléatoire dans les langues à écriture latine (jusqu'à 12,6%) et les écritures non latines (jusqu'à 15,1%).

Takeaways, Limitations

Takeaways : Démontre que l'intégration d'informations phonétiques peut améliorer les performances des LLM multilingues, en particulier pour les langues utilisant des écritures non latines. Démontre qu'une stratégie de recherche ICL hybride peut améliorer les performances des langues latines et non latines.
Limitations: Des recherches supplémentaires sont nécessaires sur la généralisabilité de la méthode présentée dans cette étude. Des expériences supplémentaires sur différentes langues et architectures LLM sont nécessaires. Une analyse supplémentaire est nécessaire sur l'impact de la précision et de la cohérence de la transcription phonétique sur les performances.
👍