Bài báo này đề xuất một khuôn khổ nén video được tối ưu hóa về mặt nhận thức, tận dụng mô hình khuếch tán có điều kiện, một mô hình xuất sắc trong việc tái tạo nội dung video phù hợp với nhận thức thị giác của con người. Chúng tôi định hình lại nén video như một nhiệm vụ tạo ra có điều kiện, trong đó một mô hình tạo ra tổng hợp video từ các tín hiệu thưa thớt nhưng giàu thông tin. Chúng tôi giới thiệu ba mô-đun chính: điều kiện hóa đa hạt, nắm bắt cả cấu trúc cảnh tĩnh và tín hiệu không gian thời gian động; một biểu diễn nhỏ gọn được thiết kế để truyền tải hiệu quả mà không làm mất đi sự phong phú về mặt ngữ nghĩa; và đào tạo đa điều kiện sử dụng bỏ qua phương thức và nhúng nhận biết vai trò để tránh phụ thuộc quá mức vào một phương thức duy nhất và tăng cường tính mạnh mẽ. Các thí nghiệm mở rộng chứng minh rằng phương pháp được đề xuất vượt trội đáng kể so với cả codec thông thường và codec thần kinh về các số liệu chất lượng nhận thức như Khoảng cách video Fréchet (FVD) và LPIPS, đặc biệt là ở tỷ lệ nén cao.