Para abordar el alto coste computacional y la latencia de inferencia de los Modelos de Lenguaje de Visión (VLM), este artículo propone Fourier-VLM, un novedoso método para comprimir representaciones visuales en el dominio de la frecuencia. Los VLM existentes reemplazan los tokens de marcador de posición de imagen con características visuales extraídas del codificador de imágenes, pero la gran cantidad de tokens visuales aumenta la longitud del contexto y el coste computacional. Fourier-VLM aprovecha la concentración de características visuales en componentes de baja frecuencia y aplica un filtro paso bajo mediante una transformada de coseno discreta (DCT) bidimensional para comprimir las representaciones visuales. La DCT se calcula eficientemente mediante la transformada rápida de Fourier (FFT), lo que minimiza los costes computacionales sin requerir parámetros adicionales. Experimentos en diversas pruebas de referencia basadas en imágenes demuestran que tanto la arquitectura LLaVA como la Qwen-VL alcanzan un rendimiento competitivo y un rendimiento de generalización. En comparación con LLaVA-v1.5, nuestro enfoque propuesto reduce los FLOP de inferencia hasta en un 83,8 % y mejora la velocidad de generación en un 31,2 %.