この論文では、大規模ビジュアル言語モデル(LVLM)の推論を高速化するための新しいKVキャッシュ圧縮方法であるAirCacheを提案しています。アテンションメカニズム内で視覚とテキストトークン間の相関関係を体系的に調査してキャッシュされた視覚トークンの相当な冗長性を発見し、これを戦略的に除去することでモデル性能を維持しながらコンテキスト生成速度を大幅に向上させます。複数のLVLMとベンチマークの包括的な評価により、AirCacheは、キャッシュ全体の10%だけを維持し、さまざまなバッチサイズと入力プロンプトの長さでデコード遅延時間を29%から66%に短縮することを示しています。