Trong bài báo này, chúng tôi đề xuất Instructed Temporal Grounding for Videos (VideoITG), một phương pháp mới để chọn khung hình theo hướng dẫn của người dùng nhằm cải thiện hiệu suất của Video-LLM. VideoITG tập trung vào VidThinker, một khung chú thích tự động. Nó bao gồm ba bước: tạo phụ đề chi tiết ở cấp độ clip theo hướng dẫn của người dùng, truy xuất các phân đoạn video có liên quan thông qua suy luận dựa trên hướng dẫn và lựa chọn khung hình chi tiết để xác định chính xác bằng chứng trực quan phong phú. Sử dụng VidThinker, chúng tôi xây dựng bộ dữ liệu VideoITG-40K chứa 40.000 video và 500.000 chú thích, đồng thời thiết kế một mô hình VideoITG cắm và chạy tận dụng khả năng căn chỉnh ngôn ngữ trực quan và suy luận của Video-LLM. Kết quả thử nghiệm cho thấy sự cải thiện hiệu suất nhất quán trên nhiều tiêu chuẩn đánh giá hiểu biết video đa phương thức, chứng minh tính ưu việt và tiềm năng của nó trong việc hiểu biết video.