Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Transformateur de décision augmenté par récupération : mémoire externe pour l'apprentissage par renforcement contextuel

Created by
  • Haebom

Auteur

Thomas Schmied, Fabian Paischer, Vihang Patil, Markus Hofmarcher, Razvan Pascanu, Sepp Hochreiter

Contour

Pour surmonter les limites de l'apprentissage en contexte (ICL) dans les environnements d'apprentissage par renforcement (RL), cet article propose le Transformateur de Décision Augmenté par Récupération (RA-DT), qui utilise un mécanisme de mémoire pour récupérer uniquement les chemins partiels pertinents pour le contexte actuel à partir d'expériences passées. RA-DT utilise un composant de recherche indépendant du domaine qui ne nécessite aucun apprentissage et surpasse les méthodes existantes dans les environnements de grille, les simulations robotiques et les jeux vidéo générés procéduralement. Il atteint notamment des performances élevées même avec des longueurs de contexte courtes. Cet article identifie les limites des méthodes ICL existantes dans les environnements complexes, suggère des pistes de recherche futures et présente des jeux de données pour les quatre environnements dans lesquels il a été utilisé.

Takeaways, Limitations

Takeaways:
Une nouvelle méthode (RA-DT) pour améliorer l’efficacité de l’apprentissage en contexte dans l’apprentissage par renforcement est présentée.
Résoudre efficacement les problèmes épisodiques longs dans des environnements complexes.
Applicabilité accrue à divers environnements grâce à des mécanismes de recherche indépendants du domaine.
Contribuer à activer la recherche future en rendant publics les ensembles de données pertinents.
Limitations:
L'évaluation des performances de la méthode proposée est limitée à des environnements spécifiques (monde en grille, simulation de robot, jeu vidéo).
La vérification des performances de généralisation dans des environnements plus complexes et plus diversifiés est nécessaire.
Une analyse plus approfondie est nécessaire sur l’efficacité et l’évolutivité du mécanisme de recherche.
👍