Conditional Video Generation for High-Efficiency Video Compression
Created by
Haebom
作者
Fangqiu Yi, Jingyu Xu, Jiawei Shao, Chi Zhang, Xuelong Li
概要
本論文は、人間の視覚的認知に適合するビデオコンテンツの再構成に優れた条件付き拡散モデルを活用して、知覚的に最適化されたビデオ圧縮フレームワークを提案します。ビデオ圧縮を希少だが情報豊富な信号から生成モデルがビデオを合成する条件付き生成作業で再構成し、静的シーン構造と動的時空間キューの両方を捉える多粒子条件化、意味豊かさを犠牲にせず効率的な伝送用に設計されたコンパクト表現、そして単一モダリティへの過度の依存を防止し、強力使用した多条件トレーニングという3つの主要モジュールを導入します。広範な実験により、提案された方法は、特に高い圧縮率で、Fréchet Video Distance(FVD)やLPIPSなどの知覚品質測定基準で、既存のコーデックとニューラルコーデックの両方を大幅に上回ることを示しています。