Pour remédier au coût de calcul élevé et à la latence d'inférence des modèles vision-langage (VLM), cet article propose la méthode Fourier-VLM, une nouvelle méthode de compression des représentations visuelles dans le domaine fréquentiel. Les VLM existants remplacent les jetons d'espace réservé des images par des caractéristiques visuelles extraites de l'encodeur d'images, mais le grand nombre de jetons visuels augmente la longueur du contexte et les coûts de calcul. La méthode Fourier-VLM exploite la concentration des caractéristiques visuelles dans les composantes basse fréquence et applique un filtre passe-bas utilisant une transformée en cosinus discrète (DCT) bidimensionnelle pour compresser les représentations visuelles. La DCT est calculée efficacement via la transformée de Fourier rapide (FFT), minimisant les coûts de calcul sans nécessiter de paramètres supplémentaires. Des expériences sur divers benchmarks basés sur des images démontrent que les architectures LLaVA et Qwen-VL atteignent des performances compétitives et des performances de généralisation. Par rapport à LLaVA-v1.5, notre approche proposée réduit les FLOP d'inférence jusqu'à 83,8 % et améliore la vitesse de génération de 31,2 %.