Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Semilla-X: Desarrollo de un Máster de Traducción Multilingüe Sólido con los Parámetros 7B

Created by
  • Haebom

Autor

Shanbo Cheng, Yu Bao, Qian Cao, Luyang Huang, Liyan Kang, Zhicheng Liu, Yu Lu, Wenhao Zhu, Jingwen Chen, Zhichao Huang, Tao Li, Yifu Li, Huiying Lin, Sitong Liu, Ningxin Peng, Shuaijie She, Lu Xu, Nuo Xu, Sen Yang, Runsheng Yu, Yiming Yu, Liehao Zou, Hang Li, Lu Lu, Yuxuan Wang, Yonghui Wu

Describir

Seed-X es una familia de modelos lingüísticos a gran escala (LLM) de código abierto con 7 mil millones de parámetros, que incluye modelos dirigidos e inferenciales. Preentrenado con contenido monolingüe y bilingüe diverso y de alta calidad de 28 idiomas, se perfecciona mediante inferencia de Cadena de Pensamiento (CoT) y luego se generaliza a múltiples pares de idiomas mediante aprendizaje por refuerzo (RL). Alcanza un rendimiento comparable en 28 idiomas al de los principales modelos de bucle cerrado, como Gemini-2.5 y GPT-4o, y supera significativamente a los modelos de código abierto más grandes en métricas de evaluación tanto automatizadas como humanas. Compartimos las mejores prácticas de nuestro proceso de optimización y publicamos nuestros parámetros para impulsar la investigación y las aplicaciones de la traducción.

Takeaways, Limitations

Takeaways:
Logra un rendimiento similar a los modelos de circuito cerrado de última generación con un tamaño relativamente pequeño de 7 mil millones de parámetros, lo que demuestra el potencial para desarrollar modelos de traducción multilingües livianos y de alto rendimiento.
Se publica como código abierto y contribuye al desarrollo de investigaciones y aplicaciones de traducción multilingüe.
Mejora del rendimiento de generalización en diversos pares de idiomas mediante inferencia de cadena de pensamiento (CoT) y aprendizaje de refuerzo (RL).
Presentamos un método de preentrenamiento eficaz que utiliza un conjunto de datos multilingües de alta calidad que admite varios idiomas.
Limitations:
El artículo carece de referencias específicas a Limitations o direcciones de investigación futuras.
7 mil millones de parámetros sigue siendo un tamaño de modelo significativo, por lo que puede ser necesario investigar para desarrollar modelos de tamaños más pequeños.
Es posible que falte un análisis detallado del rendimiento, como por ejemplo las desviaciones de rendimiento para pares de idiomas específicos o tipos de oraciones.
👍