本稿では、交通事故を検出するための新しいアーキテクチャであるHybridMambaを紹介します。 HybridMambaは、ビジュアルコンバータと状態空間時間モデリングを統合し、高精度の思考時間位置を特定します。多層トークン圧縮と階層的な時間処理により、計算効率を維持しながら時間分解能を犠牲にしません。アイオワ交通部の大規模データセットで評価した結果、2分ビデオで平均絶対誤差1.50秒(基準モデルと比較してp<0.01)を達成し、予測の65.2%が実際の値1秒以内にありました。パラメータ数がはるかに少ないにもかかわらず(30億 vs 130億720億)、TimeChat、VideoLLaMA-2などの最新のビデオ言語モデルよりも最大3.95秒進みます。さまざまなビデオ期間(2〜40分)とさまざまな環境条件で効果的な時間位置を把握し、交通監視での微細な時間位置の把握の可能性を強調しますが、展開を展開するための課題も提示します。