Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Conditional Video Generation for High-Efficiency Video Compression

Created by
  • Haebom

저자

Fangqiu Yi, Jingyu Xu, Jiawei Shao, Chi Zhang, Xuelong Li

개요

본 논문은 인간의 시각적 인지에 부합하는 비디오 콘텐츠 재구성에 탁월한 조건부 확산 모델을 활용하여 지각적으로 최적화된 비디오 압축 프레임워크를 제안합니다. 비디오 압축을 희소하지만 정보가 풍부한 신호로부터 생성 모델이 비디오를 합성하는 조건부 생성 작업으로 재구성하여, 정적 장면 구조와 동적 시공간 큐를 모두 포착하는 다중 입자 조건화, 의미 풍부함을 희생하지 않고 효율적인 전송을 위해 설계된 컴팩트 표현, 그리고 단일 모달리티에 대한 과도한 의존을 방지하고 강력성을 높이는 모달리티 드롭아웃 및 역할 인식 임베딩을 사용한 다중 조건 훈련이라는 세 가지 주요 모듈을 도입합니다. 광범위한 실험을 통해 제안된 방법이 특히 높은 압축률에서 Fréchet Video Distance (FVD) 및 LPIPS와 같은 지각 품질 측정 기준에서 기존 및 신경 코덱을 모두 크게 능가함을 보여줍니다.

시사점, 한계점

시사점:
조건부 확산 모델을 이용한 새로운 비디오 압축 프레임워크 제시
기존 및 신경 코덱 대비 높은 압축률에서 우수한 지각 품질 달성 (FVD, LPIPS 기준)
다중 입자 조건화, 컴팩트 표현, 다중 조건 훈련을 통한 효율적이고 강력한 압축 성능 구현
한계점:
제안된 방법의 계산 복잡도 및 메모리 요구사항에 대한 분석 부족
다양한 비디오 유형 및 콘텐츠에 대한 일반화 성능 평가 부족
실제 구현 및 적용에 대한 자세한 설명 부족
👍