En este artículo, proponemos MAGREF, un marco unificado que permite la síntesis consistente de video multisujeto dadas diversas imágenes de referencia e indicaciones de texto, y que funciona independientemente del número de referencias. Para superar las dificultades de los modelos de generación de video basados en difusión existentes para lograr consistencia multisujeto y una generación de alta calidad, proponemos un mecanismo de enmascaramiento dinámico con reconocimiento de regiones y un mecanismo de concatenación de canales píxel por píxel. El primero gestiona con flexibilidad diversas inferencias de sujetos, como personas, objetos y fondos, con un único modelo, mientras que el segundo preserva mejor las características de apariencia. MAGREF se generaliza desde el entrenamiento con un solo sujeto hasta escenarios complejos multisujeto, proporcionando una calidad de generación de video superior y un control preciso sobre sujetos individuales en comparación con los modelos de referencia comerciales y de código abierto existentes. Además, presentamos un benchmark de video multisujeto para facilitar la evaluación.