Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DeepTrans: Traducción de razonamiento profundo mediante aprendizaje de refuerzo

Created by
  • Haebom

Autor

Jiaan Wang, Fandong Meng, Jie Zhou

Describir

Este artículo presenta DeepTrans, un modelo de traducción libre que utiliza LLM de inferencia profunda (p. ej., OpenAI o1 y DeepSeek-R1). Dado que la traducción libre está poco estudiada en los LLM de inferencia profunda existentes, presentamos DeepTrans, que aprende traducción libre mediante aprendizaje por refuerzo (RL). Utilizando criterios de evaluación predefinidos tanto para los resultados de la traducción como para los procesos de pensamiento, construimos un modelo de recompensa que permite a DeepTrans aprender a razonar y traducir libremente. Además, elimina la necesidad de datos de traducción etiquetados, evitando la laboriosa y exigente tarea de generar datos. Los resultados experimentales muestran que DeepTrans, basado en Qwen2.5-7B, mejora el rendimiento de la traducción literaria en un 16,3 %, superando a los potentes LLM de inferencia profunda existentes. También resumimos los fallos y los hallazgos interesantes del proceso de exploración del RL.

Takeaways, Limitations

Takeaways:
Presentamos un enfoque novedoso para aprender la traducción libre sin etiquetas utilizando el aprendizaje de refuerzo.
Logra un rendimiento de traducción libre mejorado en comparación con los LLM de inferencia profunda existentes.
Muestra un desempeño mejorado en campos especializados como la traducción literaria.
Presentando nuevas posibilidades en la investigación de la traducción libre.
Limitations:
Se necesita más investigación sobre el desempeño de generalización del modelo de compensación presentado en este documento.
Se necesitan evaluaciones de desempeño adicionales para varios pares de idiomas.
Se necesita investigación para mejorar la eficiencia del entrenamiento RL.
Falta de análisis específicos de casos de fallo y hallazgos interesantes.
👍