Los modelos para la generación de video a largo plazo se enfrentan a un problema fundamental de memoria contextual a largo plazo: el mantenimiento y la recuperación de contextos a largo plazo. La aplicación de transformadores de difusión a la generación de video a largo plazo se ve limitada por el coste cuadrático de la autoatención. Para abordar este problema, este artículo lo trata como una tarea interna de recuperación de información y propone un módulo de enrutamiento de atención dispersa, sencillo y fácil de aprender, denominado Mezcla de Contextos (MoC), un eficaz motor de búsqueda de memoria a largo plazo. En MoC, cada consulta selecciona dinámicamente fragmentos ricos en información y anclas esenciales (subtítulos, ventanas locales) en los que centrar la atención. Esto utiliza enrutamiento causal para evitar cierres de bucle. Al aumentar el tamaño de los datos y dispersar progresivamente el enrutamiento, el modelo asigna la computación a registros clave, preservando identidades, acciones y escenas a lo largo de varios minutos de contenido. Este enfoque basado en la búsqueda logra eficiencia (escalamiento casi lineal), permite el aprendizaje práctico y la síntesis, y presenta memoria y consistencia a escala de minutos.