Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

P2DT : Atténuer l'oubli dans l'apprentissage progressif des tâches avec un transformateur de décision progressif

Created by
  • Haebom

Auteur

Zhiyuan Wang, Xiaoyang Qu, Jing Xiao, Bokui Chen, Jianzong Wang

Contour

Cet article propose le Transformateur de Décision Progressive (P2DT) comme solution au problème d'oubli critique, qui entraîne une dégradation des performances lors de l'exécution de nouvelles tâches chez les agents intelligents contrôlés par des modèles à grande échelle. Le P2DT favorise les politiques spécifiques à chaque tâche en ajoutant dynamiquement des jetons de décision lors de l'apprentissage de nouvelles tâches, améliorant ainsi le modèle basé sur le Transformateur. Cela atténue l'oubli dans les scénarios d'apprentissage par renforcement continu et hors ligne. De plus, le P2DT utilise les trajectoires collectées grâce à l'apprentissage par renforcement existant pour toutes les tâches et génère de nouveaux jetons spécifiques à chaque tâche pendant l'apprentissage, préservant ainsi les connaissances acquises précédemment. Les premiers résultats démontrent que ce modèle atténue efficacement l'oubli critique et s'adapte bien à un environnement de tâches de plus en plus complexe.

Takeaways, Limitations

Takeaways:
Une nouvelle méthode pour atténuer efficacement le problème de l’oubli fatal dans les modèles basés sur les transformateurs est présentée.
Applicable à l'apprentissage par renforcement continu et hors ligne
Utilisez efficacement les données d’apprentissage existantes pour apprendre de nouvelles tâches.
Démontre une excellente évolutivité même dans un environnement de tâches de plus en plus exigeant
Limitations:
Seuls les premiers résultats sont présentés, nécessitant des expérimentations et des vérifications supplémentaires.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation dans divers environnements et tâches.
Une analyse détaillée du coût de calcul et de l’efficacité du P2DT est nécessaire.
👍