Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Sadeed: Impulsando la diacritización del árabe mediante un modelo de lenguaje reducido

Created by
  • Haebom

Autor

Zeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan

Describir

La diacritización del texto árabe sigue siendo un desafío persistente en el procesamiento del lenguaje natural debido a la riqueza de sus características morfológicas. En este artículo, presentamos Sadeed, un modelo lingüístico basado únicamente en decodificadores, optimizado con Kuwain 1.5B (Hennara et al. [2025]), un modelo compacto entrenado con un corpus árabe diverso. Sadeed se optimiza con un conjunto de datos que contiene texto diacritizado de alta calidad cuidadosamente seleccionado, generado mediante rigurosos procesos de limpieza y normalización de datos. A pesar de utilizar menos recursos computacionales, Sadeed logra resultados competitivos en comparación con modelos lingüísticos propietarios a gran escala y supera a los modelos existentes entrenados en dominios similares. Además, este artículo destaca las principales deficiencias en las prácticas actuales de evaluación comparativa para la diacritización del árabe. Para abordar estas cuestiones, presentamos SadeedDiac-25, un novedoso punto de referencia diseñado para permitir una evaluación más justa y completa en una variedad de géneros textuales y niveles de complejidad. Sadeed y SadeedDiac-25 proporcionan una base sólida para el avance de las aplicaciones de PNL en árabe, incluidas la traducción automática, la síntesis de voz y las herramientas de aprendizaje de idiomas.

Takeaways, Limitations

Takeaways:
Lograr un rendimiento comparable a los modelos de gran escala existentes utilizando modelos de pequeña escala, aumentando la eficiencia de los recursos computacionales.
Construcción de conjuntos de datos de alta calidad a través de rigurosos procesos de limpieza y normalización de datos.
Prácticas de evaluación comparativa para tareas de pegado de símbolos fonéticos árabes Limitations y ​​presentación de un nuevo punto de referencia SadeedDiac-25.
Contribuyó al desarrollo de varias aplicaciones de PNL árabe, incluidas traducción automática, síntesis de voz y herramientas de aprendizaje de idiomas.
Limitations:
Si bien hemos señalado los Limitations de las prácticas de evaluación comparativa actuales, se necesita más investigación para determinar si SadeedDiac-25 aborda completamente estos Limitations.
La posibilidad de que el rendimiento del modelo Sadeed pueda estar sesgado hacia un conjunto de datos específico.
Falta de descripción detallada del tamaño y la diversidad del conjunto de datos utilizado.
👍