Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La mamba en la llama: destilando y acelerando modelos híbridos

Created by
  • Haebom

Autor

Junxiong Wang, Daniele Paliotta, Avner May, Alexander M. Rush, Tri Dao

Describir

Este artículo presenta un método para transformar modelos Transformer a gran escala en RNN lineales (p. ej., Mamba) para una implementación eficiente. Demostramos que es posible destilar conocimiento de Transformer en RNN lineales mediante la reutilización de pesos de proyección lineal de las capas de atención de Transformer utilizando recursos de GPU académicos. Construimos un modelo híbrido con pocas capas de atención, que logra un rendimiento similar al del Transformer original en benchmarks de chat y supera al modelo híbrido Mamba de código abierto entrenado con tokens masivos tanto en benchmarks de chat como generales. También presentamos un algoritmo de decodificación predictiva con reconocimiento de hardware que acelera la velocidad de inferencia de Mamba y los modelos híbridos. El modelo con mejor rendimiento, destilado de Llama3-8B-Instruct, alcanza una tasa de victorias controlada por longitud de 29.61 frente a GPT-4 en AlpacaEval 2 y una tasa de victorias de 7.35 en MT-Bench, superando al mejor modelo de RNN lineal ajustado por directivas a escala 8B. El modelo destilado presenta una extrapolación natural de la longitud y alcanza una precisión casi perfecta en una prueba de búsqueda de una aguja en un pajar con una longitud de 20x. El código y los puntos de control preentrenados están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para implementar eficientemente modelos de transformadores a gran escala.
Demostrar la viabilidad de crear modelos lineales basados ​​en RNN que mantengan o superen el rendimiento de Transformer con recursos computacionales limitados.
Aceleración de la inferencia con algoritmos de decodificación predictiva basados ​​en hardware.
Verificación del desempeño de extrapolación de longitud natural del modelo destilado.
Proporciona código fuente abierto y puntos de control previamente entrenados.
Limitations:
Dado que este es un resultado de investigación que utiliza recursos de GPU académicos, se necesita investigación adicional para su aplicación en entornos comerciales reales.
Falta de descripción detallada del proceso de destilación y diseño del modelo híbrido (se requiere análisis adicional).
Posibilidad de interpretar resultados sesgados hacia evaluaciones de desempeño para puntos de referencia específicos.
Falta de mención clara de los recursos de la GPU utilizados.
👍