[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Cuantización de circuitos de tareas: aprovechamiento de la localización y la interpretabilidad del conocimiento para la compresión

Created by
  • Haebom

Autor

Hanqi Xiao, Yi-Lin Sung, Elias Stengel-Eskin, Mohit Bansal

Describir

En este artículo, proponemos una novedosa técnica de cuantificación post-aprendizaje de precisión mixta, la Cuantización de Circuito de Tarea (TaCQ), para abordar el problema de la degradación del rendimiento en la cuantificación de bajo nivel de bits (2-3 bits). TaCQ funciona condicionando directamente el proceso de cuantificación al circuito de ponderación, que es un conjunto de ponderaciones relacionadas con el rendimiento de una tarea específica. Las ponderaciones importantes para el rendimiento de una tarea específica se mantienen en 16 bits, y las restantes se cuantifican, reduciendo así eficientemente el uso de memoria y minimizando la degradación del rendimiento. Utilizamos información de gradiente para predecir los cambios de ponderación debidos a la cuantificación y su impacto en el rendimiento de la tarea, y demostramos experimentalmente que supera a los métodos existentes en diversas tareas (QA, razonamiento matemático, conversión de texto a SQL) y modelos (Llama-3, Qwen2.5), utilizando datos tanto de propósito general como específicos de la tarea. En particular, logra mejoras significativas en el rendimiento con respecto a los métodos de vanguardia existentes en entornos de cuantificación de 2 y 3 bits.

Takeaways, Limitations

Takeaways:
Se presenta una nueva técnica de cuantificación de precisión mixta, TaCQ, para resolver eficazmente el problema de degradación del rendimiento en la cuantificación de bits bajos.
Minimice el impacto en el desempeño de la tarea preservando los pesos específicos de cada tarea.
Demuestra un rendimiento superior al de los métodos existentes en modelos de lenguaje a gran escala como Llama-3 y Qwen2.5 (especialmente en cuantificación de 2-3 bits)
Muestra una mejora del rendimiento incluso sin utilizar datos específicos de la tarea y es eficaz incluso en situaciones generales.
Alto rendimiento incluso con un número bajo de bits (3,1 bits) (96 % de rendimiento para Llama-3-8B-Instruct)
Limitations:
La eficacia de TaCQ puede variar según las tareas y los modelos. Se requieren experimentos adicionales con diferentes modelos y tareas.
Se necesita más investigación sobre cómo definir circuitos ponderados y criterios para seleccionar pesos importantes.
El efecto de reducir el uso de memoria depende de la proporción de mantener los pesos de importancia en 16 bits. Se requiere más investigación para determinar la proporción óptima.
👍