Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ELV-Halluc: Đánh giá ảo giác tổng hợp ngữ nghĩa trong hiểu biết về video dài

Created by
  • Haebom

Tác giả

Hao Lu, Jiahao Wang, Yaolun Zhang, Ruohui Wang, Hiênyu Zheng, Yepeng Tang, Dahua Lin, Lewei Lu

Phác thảo

Bài báo này tập trung vào vấn đề ảo giác trong các Mô hình Ngôn ngữ Quy mô Lớn Đa phương thức Video (Video-MLLM), cụ thể là Ảo giác Tổng hợp Ngữ nghĩa (SAH) xảy ra trong các video có thời lượng dài. Không giống như các nghiên cứu trước đây đã đơn giản hóa nguyên nhân gây ảo giác bằng cách tập trung vào các video ngắn, bài báo này định nghĩa lại SAH, xảy ra trong quá trình xử lý ngữ nghĩa phức tạp trong các video có thời lượng dài, và trình bày một chuẩn mực mới, ELV-Halluc, cho mục đích này. Sử dụng ELV-Halluc, chúng tôi xác nhận sự hiện diện của SAH, phân tích mối tương quan của nó với độ phức tạp ngữ nghĩa và những thay đổi ngữ nghĩa nhanh chóng, và xác minh bằng thực nghiệm hiệu quả của các chiến lược mã hóa vị trí và chiến lược bù vị trí động (DPO) để giảm thiểu SAH. Sử dụng 8.000 cặp dữ liệu đối nghịch, chúng tôi cải thiện hiệu suất mô hình và đạt được mức giảm 27,7% tỷ lệ SAH.

Takeaways, Limitations

Takeaways:
Chúng tôi định nghĩa một loại ảo giác mới trong các video dài hạn, SAH, và đưa ra chuẩn mực mới, ELV-Halluc, cho loại ảo giác này.
Phân tích nguyên nhân và đặc điểm của SAH và làm sáng tỏ mối tương quan của nó với độ phức tạp về mặt ngữ nghĩa và tốc độ thay đổi về mặt ngữ nghĩa.
Trình bày các chiến lược hiệu quả (chiến lược mã hóa vị trí, chiến lược DPO) để giảm thiểu SAH và xác minh cải thiện hiệu suất.
Góp phần cải thiện hiệu suất của Video-MLLM để hiểu video lâu dài.
Limitations:
Kích thước dữ liệu của chuẩn ELV-Halluc có thể tương đối nhỏ ở mức 8.000.
Cần phải xác nhận thêm hiệu suất tổng quát của chiến lược giảm thiểu SAH được đề xuất.
Có thể chưa có sự đánh giá về khả năng áp dụng các chiến lược giảm thiểu và ngăn ngừa SAH cho các loại Video-MLLM khác nhau.
👍