Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MAViS : un framework multi-agents pour la narration vidéo en longues séquences

Created by
  • Haebom

Auteur

Qian Wang, Ziqi Huang, Ruoxi Jia, Paul Debevec, Ning Yu

Contour

MAViS est un framework collaboratif multi-agents complet pour la narration vidéo de longs métrages. Il coordonne des agents spécialisés à travers plusieurs étapes, notamment l'écriture du scénario, la conception des plans, la modélisation des personnages, la génération d'images clés, l'animation vidéo et la génération audio. À chaque étape, les agents fonctionnent selon le principe des 3E (Explorer, Réviser, Améliorer) afin de garantir l'exhaustivité du résultat intermédiaire. Compte tenu des limites fonctionnelles des modèles génératifs actuels, nous proposons des lignes directrices pour l'écriture de scénarios afin d'optimiser la compatibilité entre scripts et outils de génération. Les résultats expérimentaux démontrent que MAViS atteint des performances de pointe en termes de fonctionnalités d'assistance, de qualité visuelle et d'expressivité vidéo. Ce framework modulaire améliore encore l'extensibilité avec divers modèles et outils génératifs. Grâce à des invites utilisateur simples, MAViS génère des récits vidéo expressifs et de haute qualité pour les longs métrages, enrichissant ainsi l'inspiration et la créativité des utilisateurs. MAViS est le seul framework à fournir des résultats de conception multimodaux, tels que des vidéos avec narration et musique de fond.

Takeaways, Limitations

Takeaways:
Fonctions auxiliaires, qualité visuelle et expressivité considérablement améliorées dans la création de vidéos de long métrage.
Nous présentons un processus de génération efficace grâce à la collaboration multi-agents et au principe 3E.
Un cadre modulaire assure l'extensibilité avec divers modèles et outils génératifs.
Fournit une sortie multimode de haute qualité (vidéo, récit, musique de fond) avec des invites simples.
Il contribue à favoriser la créativité et l’inspiration des utilisateurs.
Limitations:
Certains aspects dépendent des limitations fonctionnelles du modèle génératif actuel (suggérant la nécessité de directives d'écriture de scripts).
Il peut y avoir un manque de descriptions détaillées des types et des capacités de modèles et d’outils génératifs spécifiques.
Des recherches supplémentaires pourraient être nécessaires pour explorer la généralisabilité à la génération de vidéos dans différents genres et styles.
👍