Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ATHAR: Un conjunto de datos diverso y de alta calidad para la traducción del árabe clásico al inglés

Created by
  • Haebom

Autor

Mohammed Khalil, Mohammed Sabry

Describir

Este artículo presenta ATHAR, un conjunto de datos a gran escala y de alta calidad para la traducción al inglés de la literatura árabe clásica. Destaca la importancia de la literatura árabe clásica y la necesidad de su traducción, a la vez que aborda las limitaciones de los limitados conjuntos de datos existentes. El conjunto de datos ATHAR comprende 6600 muestras de traducción de alta calidad que abarcan diversos campos, como la ciencia, la cultura y la filosofía. Demuestra la necesidad y la aplicabilidad de este conjunto de datos mediante evaluaciones del rendimiento de modelos lingüísticos a gran escala (LLM) de vanguardia. Está disponible públicamente en el Centro de Datos HuggingFace.

Takeaways, Limitations

Takeaways: Este proyecto proporciona un amplio conjunto de datos de alta calidad, esencial para la investigación en traducción del árabe clásico, que contribuye a la mejora del rendimiento de los sistemas de traducción basados ​​en LLM. La cobertura integral del conjunto de datos, que abarca diversos campos, aumenta la accesibilidad a la literatura árabe clásica y contribuye a la difusión del conocimiento. También sugiere posibles aplicaciones para el perfeccionamiento y la formación previa de LLM.
Limitations: Es posible que el conjunto de datos aún no sea lo suficientemente amplio, por lo que podría ser necesario un análisis más profundo para detectar sesgos o desequilibrios cualitativos. Se debería considerar la posibilidad de ampliar las traducciones a otros idiomas.
👍