Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tăng cường MomentMix với DETR nhận biết độ dài để truy xuất mô men mạnh mẽ theo thời gian

Created by
  • Haebom

Tác giả

Park Seojeong, Jiho Choi, Kyungjune Baek, Hyunjung Shim

Phác thảo

Bài báo này nghiên cứu về Truy xuất Khoảnh khắc Video (Video Moment Retrieval - MR), một phương pháp xác định các khoảnh khắc cụ thể trong video dựa trên các truy vấn ngôn ngữ tự nhiên. Với sự gia tăng của việc truy xuất thông tin trên các nền tảng như YouTube, nhu cầu về công nghệ MR cũng ngày càng tăng. Mặc dù các mô hình dựa trên DETR gần đây đã đạt được những cải tiến về hiệu suất, nhưng chúng vẫn gặp khó khăn trong việc định vị chính xác các khoảnh khắc ngắn. Trong bài báo này, chúng tôi phân tích sự thiếu đa dạng đặc trưng trong các khoảnh khắc ngắn và đề xuất MomentMix, sử dụng hai chiến lược tăng cường dữ liệu (ForegroundMix và BackgroundMix), để giải quyết vấn đề này. Hơn nữa, chúng tôi nhận thấy độ chính xác dự đoán vị trí trung tâm cho các khoảnh khắc ngắn là thấp, và đề xuất một Bộ giải mã Nhận biết Chiều dài (Length-Aware Decoder) xem xét thông tin chiều dài thông qua một quy trình so khớp hai phần mới. Chúng tôi chứng minh bằng thực nghiệm rằng phương pháp được đề xuất vượt trội hơn các phương pháp dựa trên DETR hiện có trên các tập dữ liệu chuẩn, chứng minh tính hiệu quả của nó trong việc định vị các khoảnh khắc ngắn. Phương pháp được đề xuất đạt được hiệu suất tiên tiến ở cả R1 và mAP trên tập dữ liệu QVHighlights, và đạt R1@0.7 trên các tập dữ liệu TACoS và Charades-STA.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một kỹ thuật tăng cường dữ liệu mới (MomentMix) và bộ giải mã nhận biết độ dài góp phần cải thiện độ chính xác của việc truy xuất khoảnh khắc video ngắn.
ĐạT được hiệu suất SOTA trên các tập dữ liệu QVHighlights, TACoS và Charades-STA.
Chúng tôi phân tích các vấn đề về thiếu hụt tính năng đa dạng ngắn hạn và sai lệch dự đoán vị trí trung tâm và đề xuất các giải pháp.
ĐảM bảo khả năng tái tạo và mở rộng nghiên cứu thông qua việc công bố mã nguồn mở.
Limitations:
Hiệu quả của phương pháp đề xuất có thể bị giới hạn trong một tập dữ liệu chuẩn cụ thể. Cần có thêm các thử nghiệm trên nhiều tập dữ liệu khác nhau.
Chi phí tính toán có thể tăng do Bộ giải mã nhận biết độ dài trở nên phức tạp hơn.
Cần phải đánh giá hiệu suất tổng quát cho dữ liệu video đa dạng và phức tạp hơn.
👍