本論文は、長文ビデオ理解における効率的な処理のためのマルチモーダル大規模言語モデル(MLLM)の長期ビデオ処理能力の限界をカバーしています。従来の長文コンテキストMLLMには、長文の視覚コンテキストのキーバリュー(KV)キャッシュの保存と参照にかなりのメモリと計算オーバーヘッドが発生するという問題があります。従来の視覚的圧縮方法には、圧縮前に全体的な視覚的コンテキストをエンコードするか、質問に事前にアクセスする必要がある非実用的な制約があります。これを解決するために、本論文ではストリーミング方式で新しいビデオフレームをエンコードし、視覚トークンと一般的な質問トークンの間のアテンションスコアを利用してKVキャッシュを圧縮しながら固定サイズのKVメモリを維持し、メモリ制約のある長文ビデオシナリオで効率的な質問回答(QA)を可能にするクエリ-エグノスティックKVキャッシュメモリメカニズムである。 3つの長文ビデオの理解ベンチマークと2つのストリーミングビデオの質問回答ベンチマークで評価した結果、StreamMemはクエリ - エグノスティックKVキャッシュ圧縮で最先端のパフォーマンスを達成し、クエリ - アウェア圧縮方式と競争力のあるパフォーマンスを示しました。