この論文は、大規模ビジュアル言語モデル(LVLM)の推論を高速化するために、新しいKVキャッシュ圧縮方法であるAirCacheを提案しています。相関関係を体系的に調査し、キャッシュされた視覚トークンのかなりの冗長性を発見し、これを戦略的に排除し、モデル性能を維持しながらコンテキスト生成速度を大幅に向上させる。提示する複数のLVLMとベンチマークの包括的な評価の結果、AirCacheは、キャッシュ全体と比較して同様のパフォーマンスを達成しながら、ビジュアルKVキャッシュの10%だけを維持し、さまざまなバッチサイズとプロンプト長のデコード遅延時間を29%〜66%短縮します。