Bài báo này đề xuất Tích hợp Hình ảnh-Phụ đề (VSI), một phương pháp truy xuất khung hình chính hiệu quả cho việc hiểu video dạng dài. Để giải quyết những hạn chế của các phương pháp truy xuất khung hình chính hiện có, bao gồm sự liên kết đa phương thức yếu giữa các truy vấn văn bản và nội dung hình ảnh, cũng như không thể nắm bắt thông tin ngữ nghĩa thời gian phức tạp, VSI tích hợp phụ đề, dấu thời gian và ranh giới cảnh vào một quy trình truy xuất đa phương thức thống nhất. Phương pháp này tận dụng cả thông tin hình ảnh và văn bản bổ sung trong các khung hình video thông qua luồng truy xuất video và luồng khớp phụ đề, đồng thời nâng cao độ chính xác của việc truy xuất khung hình chính thông qua sự tương tác của hai luồng này. Trên tập dữ liệu LongVideoBench, VSI vượt trội đáng kể so với các phương pháp cạnh tranh về độ chính xác vị trí khung hình chính và tác vụ trả lời câu hỏi video dạng dài (Video-QA), đạt được hiệu suất tiên tiến.