Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Enhancing Traffic Incident Response through Sub-Second Temporal Localization with HybridMamba

Created by
  • Haebom

作者

Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

概要

本稿では、交通事故を検出するための新しいアーキテクチャであるHybridMambaを紹介します。 HybridMambaは、ビジュアルコンバータと状態空間時間モデリングを統合し、高精度の思考時間位置を特定します。多層トークン圧縮と階層的な時間処理により、計算効率を維持しながら時間分解能を犠牲にしません。アイオワ交通部の大規模データセットで評価した結果、2分ビデオで平均絶対誤差1.50秒(基準モデルと比較してp<0.01)を達成し、予測の65.2%が実際の値1秒以内にありました。パラメータ数がはるかに少ないにもかかわらず(30億 vs 130億720億)、TimeChat、VideoLLaMA-2などの最新のビデオ言語モデルよりも最大3.95秒進みます。さまざまなビデオ期間(2〜40分)とさまざまな環境条件で効果的な時間位置を把握し、交通監視での微細な時間位置の把握の可能性を強調しますが、展開を展開するための課題も提示します。

Takeaways、Limitations

Takeaways:
ビジュアルコンバータと状態空間時間モデリングを組み合わせることで、高精度交通事故時間位置の把握を実現
従来のモデルよりはるかに少ないパラメータで優れた性能を発揮します。
さまざまなビデオ長と環境条件で効果的なパフォーマンスを発揮します。
細かい時間位置を把握するための可能性を示します。
Limitations:
拡張展開のための課題の存在(具体的な内容は論文に記載されていない)。
👍