CameraBench là một bộ dữ liệu và chuẩn mực quy mô lớn được thiết kế để đánh giá và cải thiện khả năng hiểu chuyển động của camera. Nó bao gồm khoảng 3.000 video internet đa dạng, được chú thích bởi các chuyên gia thông qua quy trình kiểm soát chất lượng nghiêm ngặt, nhiều bước. Hợp tác với các nhà quay phim, chúng tôi đề xuất một hệ thống phân loại các nguyên mẫu chuyển động của camera. Ví dụ, một số hành động, chẳng hạn như "theo dõi", đòi hỏi phải hiểu nội dung cảnh, chẳng hạn như chủ thể chuyển động. Các nghiên cứu trên người quy mô lớn định lượng hiệu suất chú thích của con người, chứng minh rằng chuyên môn trong lĩnh vực này và đào tạo dựa trên hướng dẫn có thể cải thiện đáng kể độ chính xác. Ví dụ, người dùng mới có thể nhầm lẫn giữa việc phóng to (thay đổi tham số nội tại) với việc di chuyển về phía trước (thay đổi tham số ngoại tại), nhưng việc đào tạo cho phép họ phân biệt giữa hai điều này. Sử dụng CameraBench để đánh giá Mô hình Cấu trúc từ Chuyển động (SfM) và Mô hình Ngôn ngữ Video (VLM), chúng tôi nhận thấy rằng các mô hình SfM gặp khó khăn trong việc nắm bắt các nguyên mẫu ngữ nghĩa phụ thuộc vào nội dung cảnh, trong khi VLM gặp khó khăn trong việc nắm bắt các nguyên mẫu hình học đòi hỏi ước tính quỹ đạo chính xác. Sau đó, chúng tôi tinh chỉnh VLM tạo hình trên CameraBench để đạt được hiệu quả tốt nhất của cả hai phương diện, trình diễn các ứng dụng bao gồm phụ đề tăng cường chuyển động, trả lời câu hỏi video và tìm kiếm video thành văn bản. Với phân loại, điểm chuẩn và hướng dẫn này, chúng tôi dự đoán những nỗ lực trong tương lai hướng tới mục tiêu cuối cùng là hiểu rõ chuyển động của camera trong tất cả các video.