Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Diffusion causalement dirigée pour la génération automatisée de contrefactuels vidéo

Created by
  • Haebom

Auteur

Nikos Spyrou, Athanasios Vlontzos, Paraskevas Pegios, Thomas Melistas, Nefeli Gkouti, Yannis Panagakis, Giorgos Papanastasiou, Sotirios A. Tsaftaris

Contour

Cet article propose CSVC, un nouveau cadre pour le montage vidéo informé causalement. Si les recherches existantes sur l'application du modèle de diffusion latente (MLD) texte-image (T2I) au montage vidéo ont démontré une excellente fidélité visuelle et une excellente contrôlabilité, il peine à maintenir les relations causales dans le processus de génération de données vidéo. CSVC formule la génération vidéo contrefactuelle comme un problème de prédiction distribuée en externe (OOD), prenant en compte les relations causales. Il encode les relations spécifiées dans le graphe causal dans des invites textuelles afin d'intégrer les connaissances causales préalables et guide le processus de génération en optimisant les invites à l'aide d'une perte de texte basée sur un modèle de langage visuel (MLV). Cela garantit que l'espace latent du MLD capture les variations contrefactuelles, conduisant à la génération d'alternatives causalement significatives. CSVC est indépendant du système de montage vidéo sous-jacent et fonctionne sans aucun mécanisme interne ni réglage fin. Les résultats expérimentaux démontrent que CSVC génère des résultats vidéo contrefactuels causalement fidèles au sein de la distribution MLD grâce à un ajustement causal basé sur les invites, obtenant une causalité de pointe sans compromettre la cohérence temporelle ni la qualité visuelle. Parce qu'il est compatible avec n'importe quel système de montage vidéo de dashcam, il offre un potentiel important pour créer des scénarios vidéo réalistes de type « et si » dans divers domaines, tels que les médias numériques et les soins de santé.

Takeaways, Limitations

Takeaways:
Un nouveau cadre pour le montage vidéo causal (CSVC) est présenté.
Résolution du problème du maintien de la causalité dans le montage vidéo existant basé sur LDM.
Obtenir des effets causaux de pointe grâce à une coordination causale basée sur des impulsions.
Maintenir la cohérence temporelle et la qualité visuelle.
Compatibilité avec les systèmes de montage vidéo Black Box.
Applicabilité dans divers domaines tels que les médias numériques et la médecine.
Limitations:
La précision de la conception du graphique causal peut affecter les résultats.
L’applicabilité aux images présentant des relations causales complexes doit être revue.
Certains aspects dépendent des performances du VLM.
D’autres expériences utilisant des ensembles de données plus importants sont nécessaires.
👍