Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

Created by
  • Haebom

作者

Haibo Wang, Bo Feng, Zhengfeng Lai, Mingze Xu, Shiyu Li, Weifeng Ge, Afshin Dehghan, Meng Cao, Ping Huang

概要

StreamBridgeは、オフラインのVideo-LLMをストリーミング可能なモデルに変換するシンプルで効果的なフレームワークです。既存のモデルをオンラインシナリオに適用する際には、(1)リアルタイム多重度理解の制限された機能と(2)事前予測応答メカニズムの欠如という2つの基本的な問題を解決します。 StreamBridgeは、(1)ラウンド減衰圧縮戦略と組み合わせたメモリバッファを統合して長文脈多重相互作用をサポートし、(2)既存のVideo-LLMに簡単に統合できる別々の軽量アクティベーションモデルを介して継続的な事前予測応答を可能にします。また、StreamBridgeをサポートするために、ビデオテキストシーケンスとさまざまな指示形式を特徴とするストリーミングビデオを理解するための大規模なデータセットであるStream-ITを構築しました。幅広い実験の結果、StreamBridgeはさまざまなタスクでオフラインのVideo-LLMのストリーミング理解機能を大幅に向上させ、GPT-4oやGemini 1.5 Proなどの独自モデルよりも優れたパフォーマンスを示しました。同時に、標準ビデオの理解ベンチマークで競争力のあるまたは優れたパフォーマンスを達成しました。

Takeaways、Limitations

Takeaways:
オフラインVideo-LLMを効率的にストリーミング環境に適用できるフレームワークを提示します。
リアルタイム多回差理解と事前予測応答機能の改善
従来モデルより優れたストリーミングビデオ理解性能を実現
ストリーミングビデオを理解するための大規模なデータセットStream-IT公開。
Limitations:
StreamBridgeの一般化性能に関するさらなる研究の必要性
特定のハードウェア環境に対する依存性評価が必要です。
Stream-ITデータセットの多様性と汎用性の追加検証が必要です。
👍