Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Génération vidéo conditionnelle pour une compression vidéo haute efficacité

Created by
  • Haebom

Auteur

Fangqiu Yi, Jingyu Xu, Jiawei Shao, Chi Zhang, Xuelong Li

Contour

Cet article propose un cadre de compression vidéo optimisé perceptuellement qui exploite le modèle de diffusion conditionnelle, lequel excelle dans la reconstruction de contenu vidéo correspondant à la perception visuelle humaine. Nous recadrons la compression vidéo comme une tâche générative conditionnelle, où un modèle génératif synthétise la vidéo à partir de signaux rares mais riches en informations. Nous introduisons trois modules principaux : le conditionnement multiparticules, qui capture à la fois la structure statique de la scène et les indices spatio-temporels dynamiques ; une représentation compacte conçue pour une transmission efficace sans sacrifier la richesse sémantique ; et un apprentissage multiconditionnel utilisant l'abandon de modalité et les intégrations sensibles aux rôles pour éviter une dépendance excessive à une modalité unique et améliorer la robustesse. Des expériences approfondies démontrent que la méthode proposée surpasse significativement les codecs conventionnels et neuronaux sur des mesures de qualité perceptuelle telles que la distance vidéo de Fréchet (FVD) et le LPIPS, en particulier à des taux de compression élevés.

Takeaways, Limitations

Takeaways:
Un nouveau cadre de compression vidéo utilisant le modèle de diffusion conditionnelle est présenté.
Atteint une qualité perceptuelle supérieure à des taux de compression élevés par rapport aux codecs conventionnels et neuronaux (basés sur FVD et LPIPS)
Performances de compression efficaces et robustes obtenues grâce au conditionnement multi-particules, à la représentation compacte et à l'entraînement multi-conditions.
Limitations:
Manque d'analyse de la complexité de calcul et des besoins en mémoire de la méthode proposée.
Manque d’évaluation des performances de généralisation sur différents types de vidéos et de contenus.
Manque d'explications détaillées sur la mise en œuvre et l'application réelles
👍