Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
FP4 All the Way: Formación totalmente cuantificada de LLM
Created by
Haebom
Autor
Brian Chmiel, Maxim Fishman, Ron Banner, Daniel Soudry
Describir
Este artículo demuestra por primera vez el aprendizaje completamente cuantizado (FQT) de modelos de lenguaje a gran escala (LLM), utilizando principalmente precisión de coma flotante (FP4) de 4 bits para todos los pesos, funciones de activación y gradientes. Utilizando un conjunto de datos de hasta 200 mil millones de tokens, exploramos exhaustivamente las opciones de diseño clave para FP4, incluyendo el tamaño de bloque, el formato de escala y el método de redondeo. Nuestro análisis revela que el formato NVFP4, donde bloques de 16 valores FP4 (E2M1) comparten una escala representada en E4M3, produce resultados óptimos. La estabilidad se mejora mediante el empleo de redondeo estocástico en los pases de retropropagación y actualización, y redondeo del vecino más cercano en el pase directo. Además, identificamos umbrales teóricos y empíricos para un aprendizaje cuantizado efectivo. Cuando la norma de gradiente cae por debajo de aproximadamente $\sqrt{3}$ veces el ruido de cuantización, el aprendizaje cuantizado se vuelve menos eficiente. Aprovechando estos conocimientos, entrenamos con éxito un modelo de 7 mil millones de parámetros utilizando 256 aceleradores Intel Gaudi2. Como resultado, los modelos entrenados con FP4 lograron un rendimiento de subtareas comparable al de la línea base estándar de BF16, lo que demuestra que el aprendizaje con FP4 es un enfoque práctico y altamente eficiente para el entrenamiento LLM a gran escala. Se proporciona una implementación de referencia en https://github.com/Anonymous1252022/fp4-all-the-way .
Demostramos por primera vez la viabilidad del aprendizaje totalmente cuantificado utilizando punto flotante de 4 bits (FP4) en el entrenamiento de modelos de lenguaje a gran escala.
◦
Lograr un aprendizaje LLM eficiente y estable basado en FP4 aprovechando el formato NVFP4, el redondeo probabilístico y las técnicas de redondeo más cercano.
◦
Presentación de umbrales teóricos y experimentales para la eficiencia del aprendizaje de cuantificación.
◦
Demostramos la viabilidad del aprendizaje basado en FP4 al lograr un rendimiento comparable al de referencia del BF16.
◦
La reproducibilidad está garantizada mediante una implementación de referencia pública.
•
Limitations:
◦
El umbral presentado en este artículo ($\sqrt{3}$ veces el ruido de cuantificación) puede ser el resultado de una configuración específica, y es posible que se necesiten más investigaciones para otros modelos o conjuntos de datos.
◦
Los resultados experimentales con 256 aceleradores Intel Gaudi2 dependen del hardware y el rendimiento en otro hardware puede variar.
◦
Se necesita más investigación para determinar la generalización de la implementación actualmente publicada y su aplicabilidad a varias arquitecturas de modelos.
◦
Aunque utilizamos un conjunto de datos de hasta 200 mil millones de tokens, la escalabilidad a conjuntos de datos más grandes debe verificarse mediante más investigaciones.