Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Muestreo logit disperso: aceleración de la destilación del conocimiento en los LLM

Created by
  • Haebom

Autor

Anshumann, Mohd Abbas Zaidi, Akhil Kedia, Jinwoo Ahn, Taehwak Kwon, Kangwook Lee, Haejun Lee, Joohyung Lee

Describir

Este artículo presenta un método eficiente para la destilación de conocimiento en modelos lingüísticos a gran escala. La destilación de conocimiento, que precalcula y almacena en caché los logits de salida del modelo del profesor, es rentable, pero su aplicación al preentrenamiento aún es un área inexplorada. Demostramos que los métodos existentes de destilación de conocimiento disperso, como el almacenamiento en caché de probabilidad Top-K, proporcionan estimaciones sesgadas de la distribución de probabilidad del profesor al modelo del estudiante, lo que conlleva una degradación del rendimiento y problemas de calibración. En respuesta, proponemos un nuevo método basado en el muestreo por importancia: la «Destilación de Conocimiento por Muestreo Aleatorio». Este método proporciona estimaciones insesgadas, conserva los gradientes en la expectativa y almacena solo una gran cantidad de logits dispersos. Acelera el entrenamiento del modelo del estudiante con menos del 10 % de sobrecarga en comparación con el entrenamiento basado en entropía cruzada en modelos que abarcan desde 300 millones hasta 3 mil millones de parámetros, a la vez que mantiene un rendimiento competitivo en comparación con la destilación de conocimiento completa.

Takeaways, Limitations

Takeaways:
Proponemos 'Random Sampling Knowledge Destilation', un método de destilación de conocimiento disperso basado en el muestreo de importancia, para mejorar la velocidad de preentrenamiento de modelos de lenguaje a gran escala.
Revelamos la __T1588_____ del método Top-K existente y proponemos un método para proporcionar estimaciones imparciales.
Hemos verificado su eficiencia y rendimiento en una variedad de modelos que van desde 300 millones hasta 3 mil millones de parámetros.
Mejoramos la velocidad del entrenamiento manteniendo el rendimiento competitivo frente a la destilación total del conocimiento.
Limitations:
La eficacia del método propuesto se ha verificado en un rango de tamaño de modelo específico (300 millones a 3 mil millones de parámetros) y el rendimiento puede variar para modelos de diferentes tamaños.
Los experimentos están limitados a un conjunto de datos específico y el rendimiento de generalización en otros conjuntos de datos requiere más estudios.
Es posible que se necesiten más investigaciones para determinar las configuraciones óptimas de hiperparámetros para el método de "Destilación de conocimiento por muestreo aleatorio".
👍