本論文は、大規模言語モデル(LLM)とマルチモーダル拡張(MLLM)の進歩にもかかわらず、数分または数時間以上続くビデオコンテンツを効果的に処理して理解することがまだ困難であることを指摘しています。最近、Video-XL-2のようなモデルは効率を高め、HoPEやVideoRoPE ++などの位置エンコーディングの進歩は時空間的な理解を改善しましたが、長いビデオシーケンスの膨大な視覚トークンを処理するにはまだ計算とメモリの制約があります。したがって、論文は、無限の長さのビデオデータを継続的に処理し、理解し、推論する能力である「Infinite Video Understanding」をマルチメディア研究の次の目標として提示します。これは、ストリーミングアーキテクチャ、永続メモリメカニズム、階層的および適応的表現、イベント指向の推論、および新しい評価パラダイムなどの分野の革新をリードします。論文は、長い/超長時間のビデオ理解と関連分野の最近の研究に基づいて、これらの変革的な能力を達成するための重要な課題と主要な研究方向を提示します。
Takeaways、Limitations
•
Takeaways:
◦
Infinite Video Understandingと呼ばれる新しい研究目標を提示し、マルチメディアおよびAI研究分野の発展方向を提示します。