Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

UAR-NVC : un cadre autorégressif unifié pour la compression vidéo neuronale économe en mémoire

Created by
  • Haebom

Auteur

Jia Wang, Xinfeng Zhang, Gai Zhang, Jun Zhu, Lv Tang, Li Zhang

Contour

Cet article présente UAR-NVC (Unified AutoRegressive Framework for memory-efficient Neural Video Compression), un nouveau framework qui applique le traitement image par image des frameworks de compression vidéo existants aux INR afin de résoudre le problème de consommation mémoire dans la compression vidéo utilisant des représentations neuronales implicites (INR). UAR-NVC intègre les frameworks de compression vidéo basés sur les INR et existants dans une perspective de modélisation autorégressive temporelle en segmentant une vidéo en plusieurs clips et en utilisant une instance de modèle INR différente pour chaque clip. Nous concevons deux modules pour optimiser l'initialisation, l'apprentissage et la compression des paramètres du modèle afin de réduire la redondance temporelle entre les clips. La latence peut être ajustée en faisant varier la longueur du clip, et les résultats expérimentaux montrent des performances améliorées par rapport à divers modèles de base.

Takeaways, Limitations_

Takeaways:
Une nouvelle approche pour résoudre le problème de mémoire de la compression vidéo basée sur l'INR existante est présentée.
Intégration de cadres de compression vidéo basés sur l'INR et existants dans une perspective de modélisation autorégressive basée sur le temps.
Réglage flexible du temps d'attente grâce au réglage de la longueur du clip.
Présentation de la possibilité d'une compression vidéo efficace dans des environnements aux ressources limitées.
Amélioration des performances par rapport aux modèles précédents.
Limitations:
Des recherches supplémentaires sont nécessaires sur la stratégie de segmentation des clips et le réglage optimal de la longueur des clips de la méthode proposée.
Une évaluation des performances de généralisation est nécessaire pour différents types de vidéos.
Une évaluation et une optimisation des performances dans des environnements d’application réels sont nécessaires.
👍