Este artículo presenta un marco para la generación de video digital interactivo de humanos en tiempo real. Para abordar el alto costo computacional y la limitada controlabilidad de los métodos existentes, proponemos un método autorregresivo de generación de video capaz de inferencia de baja latencia. Con una mínima modificación de un modelo de lenguaje a gran escala (LLM), acepta diversas codificaciones condicionales, incluyendo audio, pose y texto, y genera representaciones espacial y semánticamente consistentes que guían el proceso de eliminación de ruido de un modelo de difusión. Se construye un conjunto de datos de conversación a gran escala de aproximadamente 20,000 horas para el entrenamiento del modelo, y se introduce un autocodificador compresivo profundo con relaciones de compresión de hasta 64x para reducir eficazmente la carga de inferencia a largo plazo del modelo autorregresivo. Este enfoque demuestra baja latencia, alta eficiencia y controlabilidad multimodal de grano fino en diversos experimentos, incluyendo conversación bidireccional, síntesis humana multilingüe y modelos de mundo interactivos.