Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fourier-VLM: Compressing Vision Tokens in the Frequency Domain for Large Vision-Language Models

작성자
  • Haebom

저자

Huanyu Wang, Jushi Kai, Haoli Bai, Lu Hou, Bo Jiang, Ziwei He, Zhouhan Lin

개요

본 논문은 비전-언어 모델(VLMs)의 높은 계산 비용 및 추론 지연 시간 문제를 해결하기 위해, 주파수 영역에서 시각적 표현을 압축하는 새로운 방법인 Fourier-VLM을 제안합니다. 기존 VLMs는 이미지 인코더로부터 얻은 시각적 특징을 텍스트 지시어에 추가하여 LLM에 입력하지만, 많은 시각 토큰으로 인해 계산 비용이 증가하는 문제가 있습니다. Fourier-VLM은 시각적 특징이 저주파 성분에 에너지가 집중되어 있다는 점에 착안하여, 2차원 이산 코사인 변환(DCT)을 이용한 저역 통과 필터를 적용하여 시각적 표현을 압축합니다. DCT는 빠른 푸리에 변환(FFT)을 통해 효율적으로 계산되므로, 추가적인 계산 비용을 최소화하면서 추가 매개변수 없이 성능을 유지합니다. 다양한 이미지 기반 벤치마크에서의 실험 결과, Fourier-VLM은 LLaVA 및 Qwen-VL 아키텍처에서 우수한 일반화 성능을 보이며, LLaVA-v1.5 대비 최대 83.8%의 추론 FLOPs 감소 및 31.2%의 생성 속도 향상을 달성했습니다.

시사점, 한계점

시사점:
주파수 영역 압축을 통해 VLMs의 계산 비용 및 추론 지연 시간을 효과적으로 줄일 수 있음을 보여줍니다.
추가 매개변수 없이 높은 효율성을 달성하여 실용성이 뛰어납니다.
LLaVA와 Qwen-VL 등 다양한 아키텍처에서 우수한 일반화 성능을 보입니다.
추론 속도를 크게 향상시켜 실시간 응용에 적합합니다.
한계점:
DCT 기반의 저역 통과 필터링이 모든 유형의 이미지 및 작업에 대해 최적의 성능을 보장하는지에 대한 추가 연구가 필요합니다.
고주파 성분의 정보 손실로 인한 성능 저하 가능성에 대한 추가적인 분석이 필요합니다.
제안된 방법의 효율성이 이미지 해상도나 복잡도에 따라 달라질 수 있습니다.
👍