Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Traducción automática con recuperación aumentada y conocimiento no estructurado

Created by
  • Haebom

Autor

Jiaan Wang, Fandong Meng, Yingxue Zhang, Jie Zhou

Describir

Este artículo estudia la Traducción Automática Aumentada por Recuperación (RAG-MT) utilizando documentos no estructurados. Si bien investigaciones previas han mejorado principalmente el rendimiento de los LLM mediante la recuperación de información de corpus de traducción automática por pares o grafos de conocimiento, este artículo se centra en aprovechar el vasto conocimiento global disponible en documentos no estructurados en varios idiomas. Para lograrlo, los investigadores crearon un nuevo punto de referencia, RAGtrans, compuesto por 169.000 muestras de traducción automática y documentos multilingües, utilizando GPT-4 y traductores humanos. Además, proponen un método de aprendizaje multitarea que entrena a los LLM para utilizar la información de corpus multilingües existentes sin etiquetado adicional. Los resultados experimentales demuestran que el método propuesto mejora significativamente las puntuaciones BLEU y COMET en las traducciones inglés-chino e inglés-alemán. Finalmente, analizamos los desafíos que enfrentan los LLM actuales en estas tareas.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo punto de referencia, RAGtrans, que demuestra el potencial de RAG-MT utilizando documentos no estructurados.
Se propone un método eficaz de aprendizaje multitarea para aprovechar la información de documentos multilingües sin etiquetado adicional.
Mejoras significativas en las puntuaciones BLEU y COMET en las traducciones inglés-chino e inglés-alemán.
Proporciona un análisis de los desafíos que enfrentan actualmente los LLM en RAG-MT.
Limitations:
Es necesario ampliar aún más la escala del índice de referencia RAGtrans.
Se necesita más investigación sobre el rendimiento de generalización del método de aprendizaje multitarea propuesto.
La experimentación con diferentes combinaciones de idiomas es limitada.
Se necesita un análisis más detallado de los desafíos que enfrentan los LLM en RAG-MT.
👍