Bài báo này tập trung vào vấn đề ảo giác trong các Mô hình Ngôn ngữ Quy mô Lớn Đa phương thức Video (Video-MLLM), cụ thể là Ảo giác Tổng hợp Ngữ nghĩa (SAH) xảy ra trong các video có thời lượng dài. Không giống như các nghiên cứu trước đây đã đơn giản hóa nguyên nhân gây ảo giác bằng cách tập trung vào các video ngắn, bài báo này định nghĩa lại SAH, xảy ra trong quá trình xử lý ngữ nghĩa phức tạp trong các video có thời lượng dài, và trình bày một chuẩn mực mới, ELV-Halluc, cho mục đích này. Sử dụng ELV-Halluc, chúng tôi xác nhận sự hiện diện của SAH, phân tích mối tương quan của nó với độ phức tạp ngữ nghĩa và những thay đổi ngữ nghĩa nhanh chóng, và xác minh bằng thực nghiệm hiệu quả của các chiến lược mã hóa vị trí và chiến lược bù vị trí động (DPO) để giảm thiểu SAH. Sử dụng 8.000 cặp dữ liệu đối nghịch, chúng tôi cải thiện hiệu suất mô hình và đạt được mức giảm 27,7% tỷ lệ SAH.