본 논문은 인간의 시각적 인지에 부합하는 비디오 콘텐츠 재구성에 탁월한 조건부 확산 모델을 활용하여 지각적으로 최적화된 비디오 압축 프레임워크를 제안합니다. 비디오 압축을 희소하지만 정보가 풍부한 신호로부터 생성 모델이 비디오를 합성하는 조건부 생성 작업으로 재구성하여, 정적 장면 구조와 동적 시공간 큐를 모두 포착하는 다중 입자 조건화, 의미 풍부함을 희생하지 않고 효율적인 전송을 위해 설계된 컴팩트 표현, 그리고 단일 모달리티에 대한 과도한 의존을 방지하고 강력성을 높이는 모달리티 드롭아웃 및 역할 인식 임베딩을 사용한 다중 조건 훈련이라는 세 가지 주요 모듈을 도입합니다. 광범위한 실험을 통해 제안된 방법이 특히 높은 압축률에서 Fréchet Video Distance (FVD) 및 LPIPS와 같은 지각 품질 측정 기준에서 기존 및 신경 코덱을 모두 크게 능가함을 보여줍니다.