Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Rotación ordenada por secuencia agrupada: optimización de la transformación de rotación para cuantificación gratuita

Created by
  • Haebom

Autor

Euntae Choi, Sumin Song, Woosang Lim, Sungjoo Yoo

Describir

Este artículo propone un nuevo método de generación de matrices de rotación basado en la cuantificación post-entrenamiento (PTQ) para abordar los desafíos de implementación de modelos de lenguaje a gran escala (LLM), que requieren recursos computacionales costosos. Para abordar la degradación del rendimiento de los métodos existentes basados en rotación con anchos de bits muy bajos, como 2 bits, presentamos un enfoque novedoso que reduce los errores de cuantificación mediante la agrupación de componentes de frecuencia similares mediante la transformada de Walsh-Hadamard y el alineamiento de secuencias. Específicamente, demostramos la técnica de Rotación de Alineamiento de Secuencia Agrupada (GSR), que utiliza una matriz diagonal de bloques con pequeños bloques de Walsh, aislando eficazmente la influencia de valores atípicos y logrando un rendimiento comparable al de los métodos de optimización basados en aprendizaje. Validamos el rendimiento del método propuesto mediante tareas de inferencia y evaluaciones de la puntuación de perplejidad (PPL) en el conjunto de datos WikiText-2, demostrando su mejora en el rendimiento con respecto a las técnicas de rotación aprendida existentes.

Takeaways, Limitations

Takeaways:
Esto puede reducir significativamente el costo de implementación de LLM al permitir una cuantificación posterior al entrenamiento efectiva incluso con anchos de bits muy bajos, como 2 bits.
Es un método sin entrenamiento que no requiere aprendizaje, por lo que puede reducir los costos computacionales en comparación con los métodos existentes basados en optimización.
Se puede aplicar además de las técnicas de rotación aprendidas existentes para mejorar el rendimiento.
Nuestro nuevo método de generación de matrices de rotación que utiliza la transformada de Walsh-Hadamard y la alineación de secuencias tiene una gran aplicabilidad a otros problemas de cuantificación.
Limitations:
El rendimiento del método propuesto se basa en resultados experimentales en un conjunto de datos específico (WikiText-2), y el rendimiento de generalización a otros conjuntos de datos o tareas requiere más investigación.
Debido a la naturaleza de la transformada de Walsh-Hadamard, su complejidad computacional puede aumentar cuando se aplica a modelos de alta dimensión.
Se necesita un análisis adicional de aplicabilidad y rendimiento para varias arquitecturas LLM.
👍