Bài báo này đề xuất CSVC, một khuôn khổ mới cho việc biên tập video dựa trên nguyên nhân. Mặc dù các nghiên cứu hiện có về việc áp dụng mô hình khuếch tán tiềm ẩn (LDM) từ văn bản sang hình ảnh (T2I) vào biên tập video đã chứng minh được độ trung thực và khả năng kiểm soát hình ảnh tuyệt vời, nhưng nó vẫn gặp khó khăn trong việc duy trì các mối quan hệ nhân quả trong quá trình tạo dữ liệu video. CSVC xây dựng việc tạo video phản thực tế như một bài toán dự đoán phân tán ngoài (OOD), xem xét các mối quan hệ nhân quả. Nó mã hóa các mối quan hệ được chỉ định trong đồ thị nhân quả thành các lời nhắc văn bản để kết hợp kiến thức nhân quả trước đó và hướng dẫn quá trình tạo bằng cách tối ưu hóa các lời nhắc bằng cách sử dụng mất mát văn bản dựa trên mô hình ngôn ngữ thị giác (VLM). Điều này đảm bảo rằng không gian tiềm ẩn của LDM nắm bắt được các biến thể phản thực tế, dẫn đến việc tạo ra các phương án thay thế có ý nghĩa nhân quả. CSVC độc lập với hệ thống biên tập video cơ bản và hoạt động mà không cần bất kỳ cơ chế nội bộ hoặc tinh chỉnh nào. Kết quả thực nghiệm chứng minh rằng CSVC tạo ra các kết quả video phản thực tế trung thực về mặt nhân quả trong phân phối LDM thông qua điều chỉnh nhân quả dựa trên lời nhắc, đạt được tính nhân quả tiên tiến mà không ảnh hưởng đến tính nhất quán về mặt thời gian hoặc chất lượng hình ảnh. Vì tương thích với bất kỳ hệ thống chỉnh sửa video dashcam nào nên nó có tiềm năng đáng kể trong việc tạo ra các tình huống video 'nếu như' thực tế trong nhiều lĩnh vực, chẳng hạn như phương tiện truyền thông kỹ thuật số và chăm sóc sức khỏe.