Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

LVBench: Video cực dài để hiểu về Benchmark

Created by
  • Haebom

Tác giả

Weihan Wang, Zehai He, Wenyi Hong, Yean Cheng, Xiaohan Zhang, Ji Qi, Xiaotao Gu, Shiyu Huang, Bin Xu, Yuxiao Dong, Ming Ding, Jie Tang

Phác thảo

Bài báo này nêu bật những hạn chế của các mô hình ngôn ngữ quy mô lớn đa phương thức hiện có và các tập dữ liệu đánh giá tập trung vào việc hiểu video dạng ngắn (dưới một phút), nhấn mạnh sự bất lực của chúng trong việc đáp ứng nhu cầu của các ứng dụng trong thế giới thực như trí thông minh thể hiện cho việc ra quyết định dài hạn, đánh giá và thảo luận phim chuyên sâu, và bình luận thể thao thời gian thực, đòi hỏi phải hiểu video dạng dài. Để giải quyết vấn đề này, chúng tôi đề xuất LVBench, một chuẩn mực mới cho việc hiểu video dạng dài. LVBench bao gồm nhiều video và nhiệm vụ có sẵn công khai nhắm mục tiêu vào việc hiểu video dạng dài và trích xuất thông tin, được thiết kế để đánh giá trí nhớ dài hạn và khả năng hiểu mở rộng của các mô hình đa phương thức. Kết quả thử nghiệm chứng minh rằng các mô hình đa phương thức hiện tại vẫn hoạt động kém hiệu quả trong các nhiệm vụ hiểu video dạng dài đầy thách thức này. LVBench nhằm mục đích kích thích sự phát triển của các mô hình tiên tiến hơn có thể giải quyết sự phức tạp của việc hiểu video dạng dài và dữ liệu cũng như mã của nó được công khai.

Takeaways, Limitations

Takeaways: Chúng tôi giới thiệu LVBench, một chuẩn mực mới cho việc hiểu hình ảnh dài hạn, làm rõ những hạn chế của các mô hình hiện có và đề xuất các hướng nghiên cứu trong tương lai. Bộ dữ liệu và mã nguồn công khai có thể đẩy nhanh quá trình phát triển các mô hình đa phương thức. Điều này tạo nên nền tảng quan trọng cho việc phát triển các công nghệ hiểu hình ảnh dài hạn cần thiết cho các ứng dụng thực tế.
Limitations: LVBench vẫn đang trong giai đoạn đầu phát triển, vì vậy cần tích hợp nhiều loại hình ảnh và tác vụ dài hạn đa dạng hơn. Việc phân tích sâu về nguyên nhân dẫn đến hiệu suất kém của mô hình hiện tại vẫn còn thiếu. Cần mở rộng bộ dữ liệu để tính đến sự đa dạng về ngôn ngữ và văn hóa.
👍