En este artículo, proponemos RealGeneral, un novedoso marco de trabajo basado en modelos de vídeo, para abordar la integración de diversas tareas de generación de imágenes en un único marco. Mientras que los modelos de generación de imágenes existentes se basan en conjuntos de datos específicos de cada tarea y en aprendizaje a gran escala, o bien modifican los modelos de imagen preentrenados para cada tarea, lo que resulta en un rendimiento de generalización limitado, RealGeneral aprovecha la capacidad de modelado de correlación temporal de los modelos de vídeo para replantear la generación de imágenes como una tarea de predicción condicional de fotogramas. Incluye un módulo unificado de incrustación condicional para la alineación multimodal y un bloque DiT de flujo unificado para mitigar la interferencia intermodal. Los resultados experimentales muestran que RealGeneral mejora la similitud de temas en un 14,5 % en una tarea de generación definida por el usuario y la calidad de imagen en un 10 % en una tarea de generación de imágenes reales a partir de imágenes Canny.