Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Fourier-VLM: Compressing Vision Tokens in the Frequency Domain for Large Vision-Language Models

Created by
  • Haebom

作者

Huanyu Wang, Jushi Kai, Haoli Bai, Lu Hou, Bo Jiang, Ziwei He, Zhouhan Lin

概要

この論文は、ビジョン言語モデル(VLM)の高い計算コストと推論遅延時間の問題を解決するために、周波数領域で視覚表現を圧縮する新しい方法であるFourier-VLMを提案します。従来のVLMは、画像エンコーダから抽出された視覚的特徴で画像プレースホルダトークンを置き換えますが、多くの視覚トークンによってコンテキスト長が長くなり、計算コストが高くなるという問題があります。 Fourier-VLMは、視覚的特徴が低周波成分にエネルギーが集中していることに着目し、二次元離散コサイン変換(DCT)を用いたローパスフィルタを適用して視覚表現を圧縮します。 DCTは高速フーリエ変換(FFT)によって効率的に計算され、追加のパラメータなしで計算コストを最小限に抑えます。さまざまな画像ベースのベンチマークでの実験は、LLaVAとQwen-VLアーキテクチャの両方で競争力のあるパフォーマンスと一般化のパフォーマンスを達成することを示しています。 LLaVA-v1.5と比較して、推論FLOPを最大83.8%減少させ、生成速度を31.2%向上させました。

Takeaways、Limitations

Takeaways:
周波数領域圧縮によりVLMの計算コストと推論遅延時間を効果的に短縮できることを示した。
追加のパラメータなしで効率的なパフォーマンス向上を実現します。
LLaVAやQwen-VLなど、さまざまなアーキテクチャで優れた一般化性能を発揮します。
実用的なアプリケーションのためのVLMの効率と実用性を大幅に向上させます。
Limitations:
提案された方法のパフォーマンスの向上が特定のデータセットまたはアーキテクチャに偏っている可能性があります。より広範な実験で一般化性能を検証する必要があります。
低周波成分に集中したエネルギーを仮定するには、これらの仮定をすべての画像データに常に適用できるかどうかについてのさらなる研究が必要である。
DCTベースの圧縮の制限により、高周波成分の情報損失が発生する可能性がある。その結果、パフォーマンスの低下を最小限に抑えるための追加の研究が必要になる場合があります。
👍