Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Au-delà des images grand angle : correction de la structure des portraits vidéo en détail via une adaptation spatio-temporelle non supervisée

Created by
  • Haebom

Auteur

Wenbo Nie, Lang Nie, Chunyu Lin, Jingwen Chen, Ke Xing, Jiyuan Wang, Kang Liao

Contour

Pour résoudre le problème de distorsion faciale causé par les caméras grand angle, cet article propose ImagePC, un modèle de correction de portraits aux détails structurels qui intègre la reconnaissance longue portée des Transformers et le débruitage multi-étapes des modèles de diffusion. Compte tenu de la difficulté d'obtenir des étiquettes vidéo, nous proposons VideoPC, une version réadaptée d'ImagePC pour les vidéos grand angle non étiquetées, utilisant l'adaptation spatio-temporelle par diffusion avec des contraintes de cohérence spatiale et de fluidité temporelle. VideoPC atténue séquentiellement le flou temporel dans les scénarios aveugles tout en maintenant une correction faciale spatiale de haute qualité. Nous évaluons les performances et entraînons le modèle sur un ensemble de données de portraits vidéo contenant un ensemble diversifié de personnes, de conditions d'éclairage et d'arrière-plans, et démontrons expérimentalement qu'il surpasse les méthodes existantes, tant sur le plan qualitatif que quantitatif. Le code et l'ensemble de données seront rendus publics ultérieurement.

Takeaways, Limitations_

Takeaways:
Une solution efficace au problème de distorsion faciale causé par la distorsion de la caméra grand angle.
Un nouveau modèle de correction de portrait de détails structurels intégrant des modèles de transformateur et de diffusion est proposé.
Nous proposons VideoPC, une technique de compensation efficace pour les vidéos non affichées.
Création et publication d’un nouvel ensemble de données de portraits vidéo qui comprend une variété de conditions.
A démontré des performances quantitatives et qualitatives supérieures par rapport aux méthodes existantes.
Limitations:
Manque d’analyse du coût de calcul et de la complexité du modèle proposé.
Manque d’évaluation des performances de généralisation pour différents types de distorsion.
Manque d’évaluation des performances dans des environnements d’application réels.
Une analyse plus approfondie est nécessaire sur l’efficacité et les limites des contraintes de fluidité temporelle de VideoPC.
👍