Inspiré par l'hypothèse du ticket de loterie bien initialisé (WLTH), cet article propose Soft-Transformers (Soft-TF), une nouvelle méthode d'apprentissage continu (CL) entièrement affinée qui entraîne et sélectionne séquentiellement les réseaux souples optimaux pour chaque tâche. Soft-TF maintient les paramètres des couches pré-entraînées fixes pendant l'apprentissage continu, tout en optimisant les pondérations des couches creuses à l'aide de masques Soft-TF bien initialisés pour obtenir des réseaux souples (à valeurs réelles) adaptatifs aux tâches. Lors de l'inférence, le réseau adaptatif aux tâches identifié masque les paramètres du réseau pré-entraîné pour le mettre en correspondance avec la solution optimale pour chaque tâche, minimisant ainsi l'oubli catastrophique (CF). Le masquage souple préserve les connaissances du réseau pré-entraîné. Des expériences approfondies sur le Vision Transformer (ViT) et le Language Transformer (Bert) démontrent l'efficacité de Soft-TF, atteignant des performances de pointe dans les scénarios d'apprentissage incrémental de la vision et des classes de langage (CIL).