Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MovieCORE: Lý luận nhận thức trong phim ảnh

Created by
  • Haebom

Tác giả

Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu

Phác thảo

MovieCORE là một bộ dữ liệu hỏi đáp video (VQA) mới được thiết kế để khám phá sự hiểu biết sâu sắc hơn về nhận thức nội dung phim. Không giống như các bộ dữ liệu hiện có tập trung vào hiểu biết hời hợt, MovieCORE tập trung vào các câu hỏi kích hoạt tư duy Hệ thống 2 nhưng vẫn cụ thể với nội dung video. Chúng tôi trình bày một phương pháp động não tác tử sáng tạo, tận dụng nhiều mô hình ngôn ngữ quy mô lớn (LLM) làm tác nhân tư duy để tạo ra và tinh chỉnh các cặp câu hỏi-trả lời chất lượng cao. Để đánh giá chất lượng của bộ dữ liệu, chúng tôi đã phát triển một bộ bài kiểm tra nhận thức đánh giá độ sâu, tiềm năng kích thích tư duy và độ phức tạp cú pháp. Chúng tôi cũng đề xuất một khuôn khổ đánh giá toàn diện để đánh giá hiệu suất của mô hình VQA trên các nhiệm vụ nhận thức sâu sắc hơn. Để giải quyết những hạn chế của các mô hình ngôn ngữ video (VLM) hiện có, chúng tôi giới thiệu Tăng cường Lựa chọn Tác tử (ACE), một mô-đun tăng cường tác tử giúp cải thiện khả năng suy luận của mô hình lên đến 25% sau khi đào tạo. Nghiên cứu này góp phần vào sự tiến bộ của việc hiểu phim trong các hệ thống AI và cung cấp những hiểu biết sâu sắc về khả năng và hạn chế của các mô hình VQA hiện tại khi đối mặt với những câu hỏi khó và phức tạp hơn về nội dung phim. Bạn có thể tìm thấy trang dự án, tập dữ liệu và mã tại _____T91174____- .

Takeaways, Limitations

Takeaways:
Chúng tôi xin giới thiệu MovieCORE, một tập dữ liệu VQA mới đánh giá khả năng hiểu biết sâu sắc về nội dung phim.
Tạo ra các cặp câu hỏi-trả lời chất lượng cao thông qua phương pháp động não sáng tạo bằng LLM.
Đề Xuất một hệ thống đánh giá toàn diện để đánh giá hiệu suất nhiệm vụ nhận thức sâu của các mô hình VQA.
Phát triển mô-đun ACE để nâng cao khả năng suy luận của VLM.
Góp phần nâng cao khả năng hiểu biết của hệ thống AI về phim ảnh.
Limitations:
Không đề cập cụ thể đến quy mô và tính đa dạng của tập dữ liệu MovieCORE.
Việc cải thiện hiệu suất của mô-đun ACE có thể bị giới hạn ở một số tập dữ liệu và mô hình cụ thể.
Cần phải xác nhận thêm tính khách quan và độ tin cậy của bài kiểm tra nhận thức được đề xuất.
👍