Este artículo presenta tres mejoras al paradigma estándar de aprendizaje por refuerzo basado en modelos, basado en Transformer. En primer lugar, "Dyna con calentamiento" entrena la política utilizando datos reales e imaginarios, pero comienza a utilizar estos últimos solo después de que el modelo del mundo se haya entrenado lo suficiente. En segundo lugar, el "tokenizador de vecino más cercano" para parches de imagen mejora el enfoque previo de tokenizador requerido al utilizar el modelo del mundo Transformer (TWM), al garantizar que las palabras clave se fijen tras su generación, proporcionando así un objetivo consistente para el aprendizaje de TWM. En tercer lugar, la "aplicación del profesor de bloques" permite a TWM inferir conjuntamente tokens futuros para el siguiente paso de tiempo en lugar de generarlos secuencialmente. El método propuesto demuestra mejoras significativas en el rendimiento con respecto a los métodos anteriores en diversos entornos. En particular, alcanza una recompensa del 69,66 % tras 1 millón de pasos en el entorno en el benchmark Craftax-classic, superando significativamente a DreamerV3 (53,2 %) y superando el nivel humano (65,0 %) por primera vez. También demostramos la generalidad del enfoque a través de resultados preliminares en Craftax-full, MinAtar y otros tres juegos para dos jugadores.