Bài báo này trình bày HybridMamba, một kiến trúc mới để phát hiện tai nạn giao thông. HybridMamba tích hợp các bộ chuyển đổi hình ảnh và mô hình hóa thời gian không gian trạng thái để đạt được định vị thời gian tai nạn có độ chính xác cao. Nén mã thông báo nhiều lớp và xử lý thời gian phân cấp duy trì hiệu quả tính toán mà không ảnh hưởng đến độ phân giải thời gian. Được đánh giá trên một tập dữ liệu quy mô lớn từ Sở Giao thông Vận tải Iowa, HybridMamba đạt được sai số tuyệt đối trung bình là 1,50 giây (p <0,01 so với các mô hình cơ sở) trên các video dài 2 phút, với 65,2% dự đoán nằm trong vòng 1 giây so với giá trị thực tế. Mặc dù số lượng tham số ít hơn đáng kể (3 tỷ so với 13,72 tỷ ), nhưng nó vượt trội hơn các mô hình ngôn ngữ video hiện đại như TimeChat và VideoLLaMA-2 tới 3,95 giây. Nó chứng minh khả năng định vị thời gian hiệu quả trên một loạt thời lượng video (từ 2 đến 40 phút) và các điều kiện môi trường, làm nổi bật tiềm năng của định vị thời gian chi tiết trong giám sát giao thông nhưng cũng đặt ra những thách thức cho việc triển khai trên quy mô lớn.