Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CALR: Descomposición adaptativa correctiva de bajo rango para una compresión eficiente de capas de modelos de lenguaje grandes

Created by
  • Haebom

Autor

Muchammad Daniyal Kautsar, Afra Majida Hariono, Widyawan, Syukron Abu Ishaq Alfarozi, Kuntpong Woraratpanya

Describir

Este artículo propone la Descomposición Correctiva Adaptativa de Bajo Rango (CALR), un método novedoso que mejora la técnica de descomposición de bajo rango mediante la descomposición en valores singulares (SVD) para abordar los desafíos de implementar modelos de lenguaje a gran escala (LLM), en particular su tamaño masivo y altas demandas computacionales. Mientras que los métodos de compresión existentes basados ​​en SVD se centran en minimizar los errores de reconstrucción del modelo, lo que degrada el rendimiento funcional, CALR aborda este problema combinando capas comprimidas mediante SVD con módulos de corrección de bajo rango paralelos entrenados para recuperar errores funcionales residuales. Los resultados experimentales en modelos como SmolLM2-135M, Qwen3-0.6B y Llama-3.2-1B demuestran que CALR reduce el número de parámetros en un 26,93% y un 51,77%, respectivamente, mientras que mantiene el 59,45% y el 90,42% del rendimiento del modelo original, respectivamente, superando a métodos existentes como LaCo, ShortGPT y LoSparse. Esto demuestra que tratar la pérdida de información funcional como una señal que se puede aprender es un paradigma de compresión eficaz.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo paradigma de compresión que trata la pérdida de información funcional como una señal que se puede aprender.
Desarrollo de un algoritmo CALR que supera las técnicas de descomposición de bajo rango existentes.
Aumentar el potencial de implementación en el mundo real al reducir el tamaño y las demandas computacionales de LLM.
Ampliación del uso de LLM en entornos con recursos limitados
Limitations:
Los resultados experimentales presentados se limitan a un modelo específico y requieren más investigación sobre su generalización.
Es necesario analizar el coste computacional y el tiempo necesarios para entrenar el módulo de corrección CALR.
Se necesitan experimentos adicionales y evaluaciones de desempeño para LLM de diversos tamaños y tipos.
👍