MAViS est un framework collaboratif multi-agents complet pour la narration vidéo de longs métrages. Il coordonne des agents spécialisés à travers plusieurs étapes, notamment l'écriture du scénario, la conception des plans, la modélisation des personnages, la génération d'images clés, l'animation vidéo et la génération audio. À chaque étape, les agents fonctionnent selon le principe des 3E (Explorer, Réviser, Améliorer) afin de garantir l'exhaustivité du résultat intermédiaire. Compte tenu des limites fonctionnelles des modèles génératifs actuels, nous proposons des lignes directrices pour l'écriture de scénarios afin d'optimiser la compatibilité entre scripts et outils de génération. Les résultats expérimentaux démontrent que MAViS atteint des performances de pointe en termes de fonctionnalités d'assistance, de qualité visuelle et d'expressivité vidéo. Ce framework modulaire améliore encore l'extensibilité avec divers modèles et outils génératifs. Grâce à des invites utilisateur simples, MAViS génère des récits vidéo expressifs et de haute qualité pour les longs métrages, enrichissant ainsi l'inspiration et la créativité des utilisateurs. MAViS est le seul framework à fournir des résultats de conception multimodaux, tels que des vidéos avec narration et musique de fond.