Lấy cảm hứng từ Giả thuyết vé số khởi tạo tốt (WLTH), bài báo này đề xuất Soft-Transformers (Soft-TF), một phương pháp học liên tục (CL) mới được tinh chỉnh hoàn toàn, đào tạo tuần tự và lựa chọn các mạng mềm tối ưu cho mỗi tác vụ. Soft-TF duy trì các tham số của các lớp được đào tạo trước cố định trong quá trình học liên tục, đồng thời tối ưu hóa trọng số của các lớp thưa thớt bằng cách sử dụng mặt nạ Soft-TF được khởi tạo tốt để có được các mạng mềm (giá trị thực) thích ứng với tác vụ. Trong quá trình suy luận, mạng thích ứng với tác vụ đã xác định sẽ che các tham số của mạng được đào tạo trước để ánh xạ nó thành giải pháp tối ưu cho mỗi tác vụ, giảm thiểu tình trạng quên thảm khốc (CF). Che mềm bảo toàn kiến thức của mạng được đào tạo trước. Các thí nghiệm mở rộng trên Vision Transformer (ViT) và Language Transformer (Bert) chứng minh tính hiệu quả của Soft-TF, đạt được hiệu suất tiên tiến trong các tình huống học gia tăng (CIL) của lớp ngôn ngữ và thị giác.