[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mitigación de sesgos estilísticos de los sistemas de traducción automática mediante corpus monolingües únicamente

Created by
  • Haebom

Autor

Xuanqi Gao, Weipeng Jiang, Juan Zhai, Shiqing Ma, Siyi Xie, Xinyang Yin, Chao Shen

Describir

Este artículo presenta Babel, un novedoso marco de trabajo para mejorar la preservación del estilo en la traducción automática neuronal (NMT). A diferencia de los enfoques existentes de preservación del estilo que requieren corpus paralelos, Babel utiliza únicamente un corpus monolingüe. Babel consta de dos componentes principales: un detector de estilo que identifica inconsistencias de estilo basándose en incrustaciones contextuales y un aplicador de estilo basado en difusión que corrige inconsistencias de estilo manteniendo la integridad semántica. Puede integrarse como módulo de posprocesamiento en sistemas NMT existentes, lo que permite una traducción con estilo sin necesidad de cambios en la arquitectura ni datos de estilo paralelos. Experimentos exhaustivos en cinco dominios diferentes (derecho, literatura, artículos científicos, medicina y contenido educativo) demuestran que Babel identifica inconsistencias de estilo con una precisión del 88,21 % y mejora la preservación del estilo en un 150 %, manteniendo una alta similitud semántica de 0,92. Las evaluaciones humanas también confirman que las traducciones mejoradas con Babel preservan mejor el estilo del texto original, manteniendo la fluidez y la pertinencia.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para mejorar la preservación del estilo en NMT utilizando únicamente corpus de un solo idioma.
Se integra fácilmente como módulo de posprocesamiento en sistemas NMT existentes.
Retención de estilo y mejora de la similitud semántica verificadas experimentalmente en varios campos.
Verificar la mejora de la calidad de la traducción mediante la evaluación humana.
Limitations:
Este artículo carece de descripciones detalladas de los tipos y tamaños de corpus monolingües específicos. Se requiere más investigación sobre su generalización a diversos corpus.
Debido al enfoque como módulo de posprocesamiento, las mejoras en la capacidad de aprendizaje de estilo del propio modelo NMT pueden ser limitadas.
Dado que sólo se presentaron los resultados experimentales de cinco campos, se necesita más investigación para determinar la generalización a otros campos.
👍