Este artículo propone el Transformador de Decisión Progresiva Rápida (P2DT) como solución al problema del olvido crítico, que causa una degradación del rendimiento al encontrar nuevas tareas en agentes inteligentes controlados por modelos a gran escala. P2DT promueve políticas específicas para cada tarea mediante la adición dinámica de tokens de decisión durante el aprendizaje de nuevas tareas, lo que mejora el modelo basado en el Transformador. Esto mitiga el olvido tanto en escenarios de aprendizaje de refuerzo continuo como fuera de línea. Además, P2DT utiliza trayectorias recopiladas mediante el aprendizaje de refuerzo existente en todas las tareas y genera nuevos tokens específicos para cada tarea durante el aprendizaje, preservando el conocimiento del aprendizaje previo. Los resultados iniciales demuestran que este modelo mitiga eficazmente el olvido crítico y escala adecuadamente en un entorno de tareas en crecimiento.