Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Una práctica de post-entrenamiento en Llama-3 70B con selección óptima de la proporción de mezcla de idiomas adicionales

Created by
  • Haebom

Autor

Ningyuan Xi, Yetao Wu, Kun Fan, Teng Chen, Qingqing Gu, Luo Ji

Describir

Este artículo explora cómo los modelos lingüísticos a gran escala (LLM) pueden adquirir nuevas habilidades lingüísticas y adaptarse a nuevos dominios mediante preentrenamiento continuo (CPT). Específicamente, analizamos sistemáticamente el impacto de la selección óptima de hiperparámetros clave, como la proporción de mezcla de idiomas adicionales o corpus de dominio, en el rendimiento del modelo. Realizamos CPT para mejorar la competencia en chino utilizando los modelos Llama-3 8B y 70B, y estudiamos la correlación óptima entre la proporción de mezcla de idiomas adicionales (ALMR) y la tasa de aprendizaje (LR) en el modelo 8B para derivar configuraciones experimentales óptimas. Mediante una cuidadosa selección y ajuste de hiperparámetros, mejoramos el rendimiento del modelo no solo en los puntos de referencia relacionados con el chino, sino también en dominios específicos como matemáticas, programación e inteligencia emocional. Implementamos el modelo 70B final en un sistema de chat del mundo real, logrando un rendimiento satisfactorio.

Takeaways, Limitations

Takeaways:
Presentamos una configuración experimental para mejorar la eficiencia de CPT analizando la correlación óptima entre la tasa de mezcla de idiomas adicional (ALMR) y la tasa de aprendizaje (LR).
Se verificó experimentalmente la mejora del modelo Llama-3 en el dominio del idioma chino y el desempeño en varios dominios, incluidas las matemáticas, la codificación y la inteligencia emocional.
Implementación exitosa del modelo 70B en un sistema de chat real para demostrar su practicidad.
Limitations:
El estudio se limitó al modelo Llama-3, lo que puede limitar la generalización a otros modelos LLM.
Se necesitan más investigaciones para determinar si la correlación óptima entre ALMR y LR derivada del modelo 8B se puede aplicar igualmente a modelos de otros tamaños, como el modelo 70B.
Falta de métricas de rendimiento específicas y análisis de los resultados reales de la implementación del sistema de chat.
👍