Cet article présente trois améliorations du paradigme standard d'apprentissage par renforcement basé sur un modèle basé sur Transformer. Premièrement, « Dyna avec échauffement » entraîne la politique à l'aide de données réelles et imaginaires, mais ne commence à utiliser ces données qu'une fois le modèle du monde suffisamment entraîné. Deuxièmement, le « tokenizer du plus proche voisin » pour les patchs d'image améliore l'approche de tokenizer précédente, requise lors de l'utilisation du modèle du monde Transformer (TWM), en garantissant que les mots de code sont fixes après génération, fournissant ainsi une cible cohérente pour l'apprentissage TWM. Troisièmement, « l'application par l'enseignant de bloc » permet à TWM d'inférer conjointement les futurs jetons pour le pas de temps suivant au lieu de les générer séquentiellement. La méthode proposée démontre des améliorations significatives de performances par rapport aux méthodes précédentes dans divers environnements. En particulier, elle atteint une récompense de 69,66 % après 1 million d'étapes d'environnement sur le benchmark Craftax-classic, surpassant significativement DreamerV3 (53,2 %) et surpassant pour la première fois le niveau humain (65,0 %). Nous démontrons également la généralité de l’approche à travers des résultats préliminaires sur Craftax-full, MinAtar et trois autres jeux à deux joueurs.