Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Superar la escasez de datos en el modelado generativo del lenguaje para lenguajes con recursos limitados: una revisión sistemática

Created by
  • Haebom

Autor

Josh McGiff, Nikola S. Nikolov

Describir

Este artículo presenta la primera revisión sistemática de estrategias para abordar el problema de la escasez de datos en el modelado generativo del lenguaje para lenguajes de bajos recursos (LRL). Basándonos en 54 estudios, identificamos, categorizamos y evaluamos enfoques técnicos, incluyendo el aumento de datos monolingües, la retrotraducción, el aprendizaje multilingüe y la ingeniería rápida, en tareas generativas. También analizamos las tendencias en las opciones de arquitectura, las representaciones de familias lingüísticas y los métodos de evaluación. Concluimos destacando la fuerte dependencia de los modelos basados ​​en transformadores, el enfoque en un pequeño número de LRL y la falta de una evaluación consistente entre los estudios, y hacemos recomendaciones para extender estos métodos a un rango más amplio de LRL y describimos los desafíos no resueltos de construir sistemas de lenguaje generativo justos. En última instancia, esta revisión tiene como objetivo apoyar a investigadores y desarrolladores en la creación de herramientas integrales de IA para usuarios de lenguajes de bajos recursos.

Takeaways, Limitations

Takeaways: Mediante la revisión y el análisis sistemáticos de diversos enfoques técnicos para resolver la escasez de datos en el modelado generativo del lenguaje para idiomas con recursos limitados, sugerimos líneas de investigación en este campo. Evaluamos la eficacia del aprendizaje multilingüe y las técnicas de aumento de datos, y sugerimos líneas para futuras investigaciones. Esto puede contribuir al desarrollo de herramientas integrales de IA para usuarios de idiomas con recursos limitados.
Limitations: Alta dependencia de modelos basados ​​en transformadores, LRL limitados para analizar, falta de criterios de evaluación consistentes entre estudios. Se necesita investigación sobre LRL más diversos y tareas generativas.
👍