Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

OpenWHO: Un corpus paralelo a nivel de documento para la traducción de información sanitaria en idiomas con recursos limitados

Created by
  • Haebom

Autor

Rapha el Merx, Hanna Suominen, Trevor Cohn, Ekaterina Vylomova

Describir

Este artículo presenta un corpus paralelo a nivel de documento llamado OpenWHO para abordar la falta de conjuntos de datos de evaluación para idiomas con recursos limitados en traducción automática (TA), particularmente en el campo de la salud. Este corpus consiste en materiales escritos por expertos y traducidos profesionalmente, disponibles en la plataforma de aprendizaje electrónico de la Organización Mundial de la Salud (OMS). Contiene 2978 documentos y 26 824 oraciones, que respaldan más de 20 idiomas, nueve de los cuales son idiomas con recursos limitados. Utilizando este nuevo recurso, evaluamos modelos lingüísticos a gran escala (LLM) de vanguardia y modelos tradicionales de TA. Nuestros resultados muestran que los LLM superan consistentemente a los modelos tradicionales de TA, con Gemini 2.5 Flash logrando una mejora de 4,79 puntos ChrF sobre NLLB-54B en el conjunto de prueba de recursos limitados. Además, investigamos el impacto de la contextualización de LLM en la precisión, demostrando los beneficios significativos de la traducción a nivel de documento en campos especializados como la salud. El corpus OpenWHO se puso a disposición para incentivar la investigación en MT con bajos recursos en el campo de la atención médica.

Takeaways, Limitations

Takeaways:
Presentamos OpenWHO, un nuevo conjunto de datos para la investigación de traducción automática en salud en idiomas con recursos limitados.
Demostramos que LLM supera a los modelos MT tradicionales en entornos de bajos recursos.
Descubrimos que la traducción a nivel de documento contribuyó a mejorar el desempeño de los LLM en el campo especializado (salud).
Incentivamos la realización de más investigaciones proporcionando conjuntos de datos de código abierto a la comunidad investigadora.
Limitations:
El documento no menciona explícitamente el Limitations específico.
👍