[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

VideoITG: Hiểu video đa phương thức với nền tảng thời gian có hướng dẫn

Created by
  • Haebom

Tác giả

Shihao Wang, Guo Chen, De-an Huang, Zhiqi Li, Minghan Li, Guilin Li, Jose M. Alvarez, Lei Zhang, Zhiding Yu

Phác thảo

Trong bài báo này, chúng tôi đề xuất Instructed Temporal Grounding for Videos (VideoITG), một phương pháp mới để chọn khung hình theo hướng dẫn của người dùng nhằm cải thiện hiệu suất của Video-LLM. VideoITG tập trung vào VidThinker, một khung chú thích tự động. Nó bao gồm ba bước: tạo phụ đề chi tiết ở cấp độ clip theo hướng dẫn của người dùng, truy xuất các phân đoạn video có liên quan thông qua suy luận dựa trên hướng dẫn và lựa chọn khung hình chi tiết để xác định chính xác bằng chứng trực quan phong phú. Sử dụng VidThinker, chúng tôi xây dựng bộ dữ liệu VideoITG-40K chứa 40.000 video và 500.000 chú thích, đồng thời thiết kế một mô hình VideoITG cắm và chạy tận dụng khả năng căn chỉnh ngôn ngữ trực quan và suy luận của Video-LLM. Kết quả thử nghiệm cho thấy sự cải thiện hiệu suất nhất quán trên nhiều tiêu chuẩn đánh giá hiểu biết video đa phương thức, chứng minh tính ưu việt và tiềm năng của nó trong việc hiểu biết video.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới để cải thiện hiệu suất của Video-LLM bằng cách sử dụng lựa chọn khung hình dựa trên hướng dẫn của người dùng.
Trình bày khả năng xây dựng các tập dữ liệu hiệu quả thông qua khung chú thích tự động VidThinker.
Các mô hình VideoITG cắm và chạy có thể áp dụng cho nhiều loại Video-LLM.
Chúng tôi chứng minh sự cải thiện hiệu suất trên nhiều tiêu chuẩn đánh giá hiểu biết về video đa phương thức.
Bộ dữ liệu VideoITG-40K cung cấp nguồn tài nguyên có giá trị cho nghiên cứu trong tương lai.
Limitations:
Cần xác nhận thêm về độ chính xác của chú thích tự động và hiệu suất tổng quát của VidThinker.
Hiệu suất có thể giảm sút đối với một số loại video hoặc chỉ thị.
Cần nghiên cứu thêm về hiệu quả và khả năng mở rộng cho các video có thời lượng dài.
Cần phải đánh giá hiệu suất tổng quát trên nhiều nền văn hóa và ngôn ngữ khác nhau.
👍