Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Hướng tới việc hiểu chuyển động của máy quay trong bất kỳ video nào

Created by
  • Haebom

Tác giả

Zhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan

Phác thảo

CameraBench là một bộ dữ liệu và chuẩn mực quy mô lớn được thiết kế để đánh giá và cải thiện khả năng hiểu chuyển động của camera. Nó bao gồm khoảng 3.000 video internet đa dạng, được chú thích bởi các chuyên gia thông qua quy trình kiểm soát chất lượng nghiêm ngặt, nhiều bước. Hợp tác với các nhà quay phim, chúng tôi đề xuất một hệ thống phân loại các nguyên mẫu chuyển động của camera. Ví dụ, một số hành động, chẳng hạn như "theo dõi", đòi hỏi phải hiểu nội dung cảnh, chẳng hạn như chủ thể chuyển động. Các nghiên cứu trên người quy mô lớn định lượng hiệu suất chú thích của con người, chứng minh rằng chuyên môn trong lĩnh vực này và đào tạo dựa trên hướng dẫn có thể cải thiện đáng kể độ chính xác. Ví dụ, người dùng mới có thể nhầm lẫn giữa việc phóng to (thay đổi tham số nội tại) với việc di chuyển về phía trước (thay đổi tham số ngoại tại), nhưng việc đào tạo cho phép họ phân biệt giữa hai điều này. Sử dụng CameraBench để đánh giá Mô hình Cấu trúc từ Chuyển động (SfM) và Mô hình Ngôn ngữ Video (VLM), chúng tôi nhận thấy rằng các mô hình SfM gặp khó khăn trong việc nắm bắt các nguyên mẫu ngữ nghĩa phụ thuộc vào nội dung cảnh, trong khi VLM gặp khó khăn trong việc nắm bắt các nguyên mẫu hình học đòi hỏi ước tính quỹ đạo chính xác. Sau đó, chúng tôi tinh chỉnh VLM tạo hình trên CameraBench để đạt được hiệu quả tốt nhất của cả hai phương diện, trình diễn các ứng dụng bao gồm phụ đề tăng cường chuyển động, trả lời câu hỏi video và tìm kiếm video thành văn bản. Với phân loại, điểm chuẩn và hướng dẫn này, chúng tôi dự đoán những nỗ lực trong tương lai hướng tới mục tiêu cuối cùng là hiểu rõ chuyển động của camera trong tất cả các video.

Takeaways, Limitations

Takeaways:
CameraBench, một tập dữ liệu quy mô lớn và là chuẩn mực để hiểu chuyển động của camera, được trình bày.
Cung cấp phân loại các nguyên tắc cơ bản về chuyển động của máy quay được phát triển với sự hợp tác của các nhà quay phim.
Tiết lộ __T11078_____ của SfM và VLM và cải thiện nó bằng cách sử dụng VLM tạo sinh
Cung cấp nhiều ứng dụng khác nhau, bao gồm phụ đề tăng cường chuyển động, trả lời câu hỏi video và tìm kiếm video thành văn bản.
Nhấn mạnh tầm quan trọng của chuyên môn trong lĩnh vực và đào tạo dựa trên hướng dẫn
Limitations:
Kích thước tập dữ liệu có thể lớn hơn
Cần cải thiện tính toàn diện trên các loại chuyển động camera khác nhau
Cần nghiên cứu thêm về hiệu suất tổng quát của các mô hình được đào tạo trên CameraBench.
Cần có thêm nghiên cứu về hệ thống phân loại chi tiết hơn cho các chuyển động cụ thể của máy ảnh.
👍