IPFormer-VideoLLM: Enhancing Multi-modal Video Understanding for Multi-shot Scenes
Created by
Haebom
作者
Yujia Liang, Jile Jiao, Xuetao Feng, Zixuan Ye, Yuan Wang, Zhicheng Wang
概要
この論文は、既存のVideo Large Language Models(VideoLLMs)がマルチショットシナリオ(さまざまなカメラ角度やシーンの変化を含むビデオクリップ)で問題を抱えている問題を解決するために、マルチショットシナリオでカスタマイズされた詳細な説明と指示ベースのクエリ応答ペアを特徴とする新しいデータです。既存のモデルがオブジェクト情報を不完全にエンコードする問題を分析し、オブジェクトレベルの機能をインスタンスプロンプトで効率的なアテンションベースのコネクタを介して注入する新しいモデルIPFormer-VideoLLMを提案します。実験の結果、提案されたデータセットとモデルは、マルチシーンビデオの理解を大幅に向上させ、さまざまなビデオベンチマークに明確な利点を提供することを示しています。