Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

PerceptionLM: Dữ liệu và Mô hình Truy cập Mở để Hiểu biết Trực quan Chi tiết

Created by
  • Haebom

Tác giả

Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Kr ahenb uhl, Piotr Doll và Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer

Phác thảo

Bài báo này trình bày một nghiên cứu về việc xây dựng Mô hình Ngôn ngữ Tri giác (PLM) trong một khuôn khổ hoàn toàn mở và có thể tái tạo để nghiên cứu các mô hình ngôn ngữ thị giác thiết yếu cho nghiên cứu thị giác máy tính. Không chắt lọc từ các mô hình độc quyền, chúng tôi phân tích các quy trình đào tạo tiêu chuẩn và tận dụng dữ liệu tổng hợp quy mô lớn để xác định một khoảng trống dữ liệu quan trọng, đặc biệt là trong việc hiểu video chi tiết. Để giải quyết khoảng trống này, chúng tôi phát hành 2,8 triệu cặp câu hỏi-trả lời video phức tạp và các trường hợp được gắn nhãn con người của phụ đề video dựa trên không gian-thời gian. Chúng tôi cũng giới thiệu một bộ công cụ đánh giá có tên là PLM-VideoBench để đánh giá các nhiệm vụ hiểu video đầy thách thức, tập trung vào khả năng suy ra "cái gì", "ở đâu", "khi nào" và "như thế nào" của một video. Chúng tôi cung cấp dữ liệu, công thức đào tạo, mã và mô hình để đảm bảo khả năng tái tạo đầy đủ của nhiệm vụ.

Takeaways, Limitations

Takeaways:
Trình bày một khuôn khổ nghiên cứu mô hình ngôn ngữ thị giác mở và có thể tái tạo mà không dựa vào các mô hình độc quyền
Đã Phát hành bộ dữ liệu có gắn nhãn của con người quy mô lớn (2,8 triệu cặp câu hỏi-trả lời video và phụ đề)
Giới thiệu PLM-VideoBench, một công cụ đánh giá mới để hiểu video
Phân tích các khoảng trống dữ liệu và đề xuất các giải pháp thông qua việc sử dụng dữ liệu tổng hợp
Limitations:
Do hạn chế của dữ liệu tổng hợp, dữ liệu này có thể không phản ánh đầy đủ độ phức tạp của dữ liệu thực.
PLM-VideoBench có thể có phạm vi đánh giá hạn chế
Ngay cả khi đó là một mô hình mở, vẫn có những nhà nghiên cứu gặp khó khăn trong việc đảm bảo khả năng tái tạo do tính phức tạp của mô hình.
👍