Cet article propose le Transformateur de Décision Progressive (P2DT) comme solution au problème d'oubli critique, qui entraîne une dégradation des performances lors de l'exécution de nouvelles tâches chez les agents intelligents contrôlés par des modèles à grande échelle. Le P2DT favorise les politiques spécifiques à chaque tâche en ajoutant dynamiquement des jetons de décision lors de l'apprentissage de nouvelles tâches, améliorant ainsi le modèle basé sur le Transformateur. Cela atténue l'oubli dans les scénarios d'apprentissage par renforcement continu et hors ligne. De plus, le P2DT utilise les trajectoires collectées grâce à l'apprentissage par renforcement existant pour toutes les tâches et génère de nouveaux jetons spécifiques à chaque tâche pendant l'apprentissage, préservant ainsi les connaissances acquises précédemment. Les premiers résultats démontrent que ce modèle atténue efficacement l'oubli critique et s'adapte bien à un environnement de tâches de plus en plus complexe.