Inspirado en la Hipótesis del Billete de Lotería Bien Inicializado (HBIT), este artículo propone Soft-Transformers (Soft-TF), un novedoso método de aprendizaje continuo (CL) completamente optimizado que entrena y selecciona secuencialmente redes blandas óptimas para cada tarea. Soft-TF mantiene fijos los parámetros de las capas preentrenadas durante el aprendizaje continuo, a la vez que optimiza los pesos de las capas dispersas mediante máscaras Soft-TF bien inicializadas para obtener redes blandas (de valor real) adaptativas a la tarea. Durante la inferencia, la red adaptativa a la tarea identificada enmascara los parámetros de la red preentrenada para asignarla a la solución óptima para cada tarea, minimizando el olvido catastrófico (CF). El enmascaramiento suave preserva el conocimiento de la red preentrenada. Amplios experimentos con el Transformador de Visión (ViT) y el Transformador de Lenguaje (Bert) demuestran la eficacia de Soft-TF, logrando un rendimiento de vanguardia en escenarios de aprendizaje incremental (CIL) de visión y clases de lenguaje.