MAViS es un marco colaborativo multiagente integral para la narración de vídeos de larga duración. Coordina agentes especializados en múltiples etapas, como la escritura de guiones, el diseño de tomas, el modelado de personajes, la generación de fotogramas clave, la animación de vídeo y la generación de audio. En cada etapa, los agentes operan según el principio de las 3E (Explorar, Revisar, Mejorar) para garantizar la integridad del resultado intermedio. Considerando las limitaciones funcionales de los modelos generativos actuales, proponemos directrices para la escritura de guiones que optimizan la compatibilidad entre guiones y herramientas de generación. Los resultados experimentales demuestran que MAViS alcanza un rendimiento de vanguardia en cuanto a funciones de asistencia, calidad visual y expresividad de vídeo. Este marco modular mejora aún más la extensibilidad con diversos modelos y herramientas generativos. Con sencillas instrucciones de usuario, MAViS genera vídeos de larga duración expresivos y de alta calidad, que enriquecen la inspiración y la creatividad de los usuarios. MAViS es el único marco que ofrece resultados de diseño multimodales, como vídeos con narrativa y música de fondo.