Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Thu nhỏ RL thành video dài

Created by
  • Haebom

Tác giả

Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han

Phác thảo

Trong bài báo này, chúng tôi trình bày một khuôn khổ toàn diện tận dụng học tăng cường để mở rộng suy luận trên video dạng dài. Để đạt được mục tiêu này, chúng tôi tích hợp ba thành phần cốt lõi: Thứ nhất, LongVideo-Reason, một tập dữ liệu quy mô lớn gồm 104.000 cặp QA video dạng dài với các chú thích suy luận chất lượng cao từ nhiều lĩnh vực khác nhau (thể thao, trò chơi, vlog, v.v.); Thứ hai, một quy trình đào tạo hai giai đoạn mở rộng VLM với học có giám sát chuỗi suy nghĩ (CoT-SFT) và học tăng cường (RL); và Thứ ba, MR-SP, một cơ sở hạ tầng đào tạo cho video dạng dài RL tích hợp xử lý song song chuỗi và một công cụ dựa trên vLLM được thiết kế riêng cho video dạng dài, với các nhúng video được lưu trong bộ nhớ đệm để chuyển tiếp và điền trước hiệu quả. Kết quả thử nghiệm cho thấy LongVILA-R1-7B đạt hiệu suất cao trên các chuẩn video, đạt độ chính xác 65,0% khi không có phụ đề và 70,7% khi có phụ đề trên VideoMME, và luôn vượt trội hơn LongVILA-R1 trên nhiều chuẩn. Ngoài ra, hiệu suất của LongVILA-R1 cũng được cải thiện đều đặn khi số lượng khung hình video đầu vào tăng lên. Hệ thống MR-SP tăng tốc độ học RL video thời lượng dài lên đến 2,1 lần. Cuối cùng, chúng tôi trình bày một hệ thống huấn luyện cho việc học RL hỗ trợ nhiều phương thức khác nhau (video, văn bản, âm thanh), nhiều mô hình khác nhau (dòng VILA và Qwen), và thậm chí cả các mô hình tạo hình ảnh và video. Hệ thống hỗ trợ huấn luyện RL trên các video dài tới 1 giờ (ví dụ: 3.600 khung hình/khoảng 256.000 token) trên một nút A100 duy nhất (8 GPU).

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày hiệu suất suy luận của mô hình ngôn ngữ video được cải thiện so với các nghiên cứu trước đây về video có thời lượng dài.
Chúng tôi trình bày một khuôn khổ mới (MR-SP) để học tăng cường video hiệu quả trong thời gian dài.
Chúng tôi đang phát hành LongVideo-Reason, một bộ dữ liệu QA video dài hạn quy mô lớn.
Hệ thống học tập mở hỗ trợ nhiều phương thức và mô hình khác nhau, tăng khả năng tái tạo và mở rộng quy mô nghiên cứu.
Limitations:
Thiếu mô tả chi tiết về tính đa dạng và cân bằng của tập dữ liệu.
Việc thiếu thông tin chi tiết cụ thể về thuật toán học tăng cường có thể dẫn đến khó khăn trong việc tái tạo.
Kết quả hiệu suất được trình bày phụ thuộc vào môi trường phần cứng cụ thể (nút A100), cần nghiên cứu thêm về khả năng khái quát hóa.
Không có đủ thông tin về kích thước tham số của mô hình LongVILA-R1-7B.
👍