Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Reangle-A-Video : Génération de vidéos 4D comme traduction vidéo-vidéo

Created by
  • Haebom

Auteur

Hyeonho Jeong, Suhyeon Lee, Jong Chul Ye

Contour

Reangle-A-Video est un framework intégré permettant de générer des vidéos multivues synchronisées à partir d'une seule vidéo d'entrée. Contrairement aux approches classiques qui entraînent des modèles de diffusion vidéo multivues sur des jeux de données 4D à grande échelle, notre méthode recadre la génération vidéo multivues comme une transformation vidéo-vidéo en exploitant des a priori de diffusion d'images et de vidéos accessibles au public. Reangle-A-Video fonctionne en deux étapes. Premièrement, il ajuste de manière synchrone et auto-supervisée un transformateur de diffusion image-vidéo afin d'extraire le mouvement invariant à la vue d'un ensemble de vidéos déformées. Deuxièmement, il déforme et remplit la première image de la vidéo d'entrée avec différents points de vue de caméra à l'aide de DUSt3R, en suivant les directives de cohérence temporelle inter-vues inférées, afin de générer une image de départ cohérente multivues. Des expériences approfondies sur le transfert de vues statiques et le contrôle dynamique des caméras démontrent que Reangle-A-Video surpasse les méthodes existantes, offrant une solution innovante pour la génération vidéo multivues. Le code et les données seront rendus publics.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode efficace pour générer des vidéos multi-vues à partir d'une seule entrée vidéo.
Dépendance réduite aux grands ensembles de données 4D.
Il montre de meilleures performances que les méthodes existantes.
Assurer la reproductibilité et l’évolutivité de la recherche grâce au code ouvert et à la divulgation des données.
Limitations:
Dépendance à d'autres modèles tels que DUSt3R.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation dans différents scénarios.
En raison des limites des méthodes d’apprentissage auto-supervisées, il existe un risque de dégradation des performances dans certaines situations.
👍