Este artículo presenta un método para generar niveles de juego basados en mosaicos mediante modelos de difusión. Asignamos automáticamente subtítulos a conjuntos de datos existentes de niveles de juego basados en mosaicos y entrenamos el modelo de difusión utilizando un codificador de texto preentrenado y un modelo Transformer simple, de nuestro propio entrenamiento. También asignamos automáticamente subtítulos a los niveles generados, comparamos la correspondencia entre los subtítulos de entrada y salida, y evaluamos la diversidad y la jugabilidad de los niveles. Comparamos y analizamos los resultados con modelos de difusión incondicionales, GAN y técnicas de generación de niveles de texto existentes, como el Modelo de los Cinco Dólares y MarioGPT. En particular, demostramos que el modelo de difusión que utiliza un modelo Transformer simple supera a los modelos que utilizan codificadores de texto complejos con un tiempo de entrenamiento más corto, lo que sugiere que la dependencia de un modelo de lenguaje extenso no es esencial. También proporcionamos una interfaz gráfica de usuario que permite a los diseñadores construir niveles extensos utilizando escenas generadas por el modelo.