Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

AirCache: Activación de la compresión de caché KV de relevancia intermodal para una inferencia eficiente de modelos de visión y lenguaje de gran tamaño

Created by
  • Haebom

Autor

Kai Huang, Hao Zou, Bochen Wang, Ye Xi, Zhen Xie, Hao Wang

Describir

En este artículo, proponemos AirCache, un novedoso método de compresión de caché KV para acelerar la inferencia de modelos visuales de lenguaje a gran escala (LVLM). Los LVLM poseen excelentes capacidades de inferencia y generalización, pero requieren un alto coste computacional para procesar numerosos tokens visuales y generar largas salidas de contexto, lo que genera una demanda excesiva de la caché KV. AirCache investiga sistemáticamente las correlaciones entre tokens visuales y textuales, detecta una redundancia significativa en los tokens visuales almacenados en caché y los elimina estratégicamente para acelerar significativamente la generación de contexto, manteniendo al mismo tiempo el rendimiento del modelo. Sus componentes clave incluyen ventanas de observación de élite para evaluar la importancia de los componentes visuales, un modelado robusto de relevancia intermodal con una consistencia multivista mejorada y una estrategia adaptativa de asignación de presupuesto capa por capa que aprovecha la fuerza y la asimetría de las distribuciones de importancia de los tokens. Evaluaciones exhaustivas de varios LVLM y benchmarks muestran que AirCache alcanza un rendimiento similar al de la caché completa, manteniendo solo el 10 % de la caché KV visual, lo que reduce la latencia de decodificación entre un 29 % y un 66 % para diversos tamaños de lote y longitudes de mensajes. En particular, al disminuir la tasa de retención de caché, el rendimiento mejora aún más en comparación con los métodos existentes.

Takeaways, Limitations

Takeaways:
Presentamos AirCache, un novedoso método de compresión de caché KV que mejora eficazmente la velocidad de inferencia de LVLM.
Elimine eficazmente la redundancia de tokens visuales para reducir los costos computacionales.
Mejora de la eficiencia en la utilización de caché a través de estrategias de asignación de presupuesto adaptativas capa por capa.
Reduce significativamente la latencia de decodificación para varios tamaños de lotes y duraciones de indicaciones.
Cuanto menor sea la tasa de retención de caché, mejor será el rendimiento en comparación con los métodos existentes.
Limitations:
Las mejoras de rendimiento de AirCache son resultados de LVLM y puntos de referencia específicos, y el rendimiento de generalización en otros modelos o conjuntos de datos requiere más estudios.
Se necesitan más investigaciones sobre la optimización de parámetros de las ventanas de observación de élite y estrategias de asignación de presupuesto capa por capa adaptativas.
Debido a las limitaciones en la forma en que se evalúa la importancia de los tokens visuales, existe la posibilidad de que se pierda alguna información importante.
👍