Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Fourier-VLM: Compresión de tokens de visión en el dominio de frecuencia para modelos de lenguaje de visión de gran tamaño

Created by
  • Haebom

Autor

Huanyu Wang, Jushi Kai, Haoli Bai, Lu Hou, Bo Jiang, Ziwei He, Zhouhan Lin

Describir

Para abordar el alto coste computacional y la latencia de inferencia de los Modelos de Lenguaje de Visión (VLM), este artículo propone Fourier-VLM, un novedoso método para comprimir representaciones visuales en el dominio de la frecuencia. Los VLM existentes reemplazan los tokens de marcador de posición de imagen con características visuales extraídas del codificador de imágenes, pero la gran cantidad de tokens visuales aumenta la longitud del contexto y el coste computacional. Fourier-VLM aprovecha la concentración de características visuales en componentes de baja frecuencia y aplica un filtro paso bajo mediante una transformada de coseno discreta (DCT) bidimensional para comprimir las representaciones visuales. La DCT se calcula eficientemente mediante la transformada rápida de Fourier (FFT), lo que minimiza los costes computacionales sin requerir parámetros adicionales. Experimentos en diversas pruebas de referencia basadas en imágenes demuestran que tanto la arquitectura LLaVA como la Qwen-VL alcanzan un rendimiento competitivo y un rendimiento de generalización. En comparación con LLaVA-v1.5, nuestro enfoque propuesto reduce los FLOP de inferencia hasta en un 83,8 % y mejora la velocidad de generación en un 31,2 %.

Takeaways, Limitations

Takeaways:
Demostramos que la compresión del dominio de frecuencia puede reducir eficazmente el costo computacional y la latencia de inferencia de los VLM.
Consiga mejoras de rendimiento eficientes sin parámetros adicionales.
Muestra un excelente rendimiento de generalización en varias arquitecturas como LLaVA y Qwen-VL.
Mejora significativamente la eficiencia y la practicidad de los VLM para aplicaciones prácticas.
Limitations:
Las mejoras de rendimiento del método propuesto podrían estar sesgadas hacia conjuntos de datos o arquitecturas específicos. Se requieren experimentos más exhaustivos para verificar el rendimiento de la generalización.
Suponemos que la energía se concentra en componentes de baja frecuencia, pero se necesita más investigación para determinar si esta suposición siempre se puede aplicar a todos los datos de imagen.
Debido a las limitaciones de la compresión basada en DCT, existe la posibilidad de pérdida de información en componentes de alta frecuencia. Se requieren más investigaciones para minimizar la consiguiente degradación del rendimiento.
👍