Dense Video Understanding with Gated Residual Tokenization
Created by
Haebom
作者
Haichao Zhang, Wenhao Chai, Shwai He, Ang Li, Yun Fu
概要
この論文では、高解像度ビデオを理解するための新しい方法であるDense Video Understanding(DVU)と、それに合った新しいベンチマークであるDIVE(Dense Information Video Evaluation)を紹介します。従来のビデオ大規模言語モデル(VLLM)は、低フレームレートのサンプリングにより細かい時間情報を見逃す制限がありました。 GRTは動き補償を使用して静的領域のトークン化をスキップし(Motion-Compensated Inter-Gated Tokenization)、静的領域内でトークンをマージして(Semantic-Scene Intra-Tokenization Merging)効率を高めます。 DIVEベンチマークは、GRTが従来のVLLMよりも優れており、フレームレートが増加するにつれてパフォーマンスが向上することを示しています。