Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Soft-TransFormers pour l'apprentissage continu

Created by
  • Haebom

Auteur

Haeyong Kang, Chang D. Yoo

Contour

Inspiré par l'hypothèse du ticket de loterie bien initialisé (WLTH), cet article propose Soft-Transformers (Soft-TF), une nouvelle méthode d'apprentissage continu (CL) entièrement affinée qui entraîne et sélectionne séquentiellement les réseaux souples optimaux pour chaque tâche. Soft-TF maintient les paramètres des couches pré-entraînées fixes pendant l'apprentissage continu, tout en optimisant les pondérations des couches creuses à l'aide de masques Soft-TF bien initialisés pour obtenir des réseaux souples (à valeurs réelles) adaptatifs aux tâches. Lors de l'inférence, le réseau adaptatif aux tâches identifié masque les paramètres du réseau pré-entraîné pour le mettre en correspondance avec la solution optimale pour chaque tâche, minimisant ainsi l'oubli catastrophique (CF). Le masquage souple préserve les connaissances du réseau pré-entraîné. Des expériences approfondies sur le Vision Transformer (ViT) et le Language Transformer (Bert) démontrent l'efficacité de Soft-TF, atteignant des performances de pointe dans les scénarios d'apprentissage incrémental de la vision et des classes de langage (CIL).

Takeaways, Limitations

Takeaways:
Une nouvelle méthode permettant d’appliquer efficacement l’hypothèse du billet de loterie bien initialisé à l’apprentissage continu est présentée.
Résoudre efficacement le problème de l’oubli fatal en utilisant des réseaux logiciels adaptatifs aux tâches.
Les expériences avec ViT et Bert démontrent des performances de pointe dans les domaines de la vision et du langage.
Préserver efficacement les connaissances des réseaux pré-entraînés grâce à des techniques de masquage souple.
Limitations:
Manque d’analyse du coût de calcul et de la complexité de la méthode proposée.
Une validation supplémentaire des performances de généralisation sur divers ensembles de données et tâches est nécessaire.
Une explication plus détaillée de la stratégie d’optimisation des masques Soft-TF est nécessaire.
Dépendances possibles sur des architectures spécifiques (ViT, Bert).
👍