본 논문은 비전-언어 모델(VLMs)의 높은 계산 비용 및 추론 지연 시간 문제를 해결하기 위해, 주파수 영역에서 시각적 표현을 압축하는 새로운 방법인 Fourier-VLM을 제안합니다. 기존 VLMs는 이미지 인코더로부터 얻은 시각적 특징을 텍스트 지시어에 추가하여 LLM에 입력하지만, 많은 시각 토큰으로 인해 계산 비용이 증가하는 문제가 있습니다. Fourier-VLM은 시각적 특징이 저주파 성분에 에너지가 집중되어 있다는 점에 착안하여, 2차원 이산 코사인 변환(DCT)을 이용한 저역 통과 필터를 적용하여 시각적 표현을 압축합니다. DCT는 빠른 푸리에 변환(FFT)을 통해 효율적으로 계산되므로, 추가적인 계산 비용을 최소화하면서 추가 매개변수 없이 성능을 유지합니다. 다양한 이미지 기반 벤치마크에서의 실험 결과, Fourier-VLM은 LLaVA 및 Qwen-VL 아키텍처에서 우수한 일반화 성능을 보이며, LLaVA-v1.5 대비 최대 83.8%의 추론 FLOPs 감소 및 31.2%의 생성 속도 향상을 달성했습니다.