Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MuRating: Un enfoque de selección de datos de alta calidad para el preentrenamiento de modelos lingüísticos multilingües de gran tamaño

Created by
  • Haebom

Autor

Zhixun Chen, Ping Guo, Wenhan Han, Yifan Zhang, Binbin Liu, Haobin Lin, Fengze Liu, Yan Zhao, Bingni Zhang, Taifeng Wang, Yin Zheng, Meng Fang

Describir

Este artículo aborda la calidad de los datos, un factor crítico para mejorar el rendimiento de los modelos lingüísticos a gran escala. Para superar las limitaciones de los métodos actuales de selección de datos basados ​​en modelos, centrados únicamente en el inglés, presentamos un marco escalable denominado MuRating. MuRating transfiere la señal de calidad de los datos en inglés a 17 idiomas para crear un único evaluador. Obtiene una puntuación unificada de calidad del documento mediante comparaciones por pares de múltiples evaluadores ingleses y la proyecta sobre las traducciones para entrenar a evaluadores multilingües. La aplica a datos web para preentrenar un modelo LLaMA de 1200 millones de parámetros, seleccionando un subconjunto equilibrado de contenido en inglés y multilingüe. Mejora la precisión en las evaluaciones tanto en inglés como en multilingües, en comparación con métodos existentes como QuRater, AskLLM y DCLM, y muestra un excelente rendimiento, especialmente en tareas que requieren un alto nivel de conocimiento. Analizamos la fidelidad de la traducción, el sesgo de selección y la subrepresentación de los datos narrativos, y sugerimos futuras líneas de investigación.

Takeaways, Limitations

Takeaways:
Superando las limitaciones de los métodos existentes de evaluación de la calidad de datos centrados en el inglés, presentamos un marco eficaz (MuRating) para la evaluación de la calidad de datos multilingües.
Contribuyó a la selección de datos de alta calidad y a la mejora del rendimiento para la capacitación previa al LLM multilingüe.
Muestra mejoras de rendimiento particularmente grandes en tareas intensivas en conocimiento.
Limitations:
Plantea cuestiones de fidelidad de la traducción, sesgo de selección y subrepresentación del material narrativo, y sugiere la necesidad de futuras investigaciones.
Se necesita una mayor validación de la escalabilidad y generalización de MuRating.
Es necesario un análisis más profundo del impacto de la calidad del modelo de traducción utilizado en los resultados.
👍