Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Assemblage assisté par graphes pour l'apprentissage par renforcement hiérarchique hors ligne

Created by
  • Haebom

Auteur

Seungho Baek, parc Taegeon, parc Jongchan, Seungjun Oh, Yusung Kim

Contour

Les méthodes d'apprentissage par renforcement hiérarchique hors ligne existantes s'appuient sur l'apprentissage par super-politiques pour générer des séquences de sous-objectifs. Cependant, leur efficacité diminue à mesure que l'horizon de la tâche s'allonge et elles manquent de stratégies efficaces pour connecter les transitions d'état utiles sur différentes trajectoires. Dans cet article, nous proposons l'assemblage assisté par graphes (GAS), un nouveau cadre qui formule la sélection de sous-objectifs comme un problème d'exploration de graphes plutôt qu'un apprentissage explicite par super-politiques. En intégrant les états dans l'espace de représentation de la distance temporelle (TDR), GAS regroupe les états sémantiquement similaires sur différentes trajectoires en nœuds de graphes unifiés, permettant ainsi une liaison efficace des transitions. Il applique ensuite un algorithme du plus court chemin pour sélectionner les séquences de sous-objectifs au sein du graphe, et les politiques de bas niveau apprennent à atteindre ces sous-objectifs. Pour améliorer la qualité du graphe, nous introduisons une mesure d'efficacité temporelle (TE) qui améliore significativement les performances de la tâche en filtrant les états de transition bruyants ou inefficaces. GAS surpasse les méthodes HRL hors ligne précédentes pour les tâches de marche, de navigation et de manipulation. Il obtient notamment un score de 88,3 pour la tâche la plus connectée, dépassant largement le précédent meilleur score de 1,0. Le code source est disponible à l'adresse https://github.com/qortmdgh4141/GAS .

Takeaways, Limitations_

Takeaways:
Nous présentons un nouveau cadre permettant de sélectionner efficacement des séquences de sous-cibles via l'exploration de graphes sans s'appuyer sur un apprentissage de politique de haut niveau.
Relier efficacement les transitions d'état utiles sur différentes trajectoires à l'aide de la représentation de la distance temporelle (TDR).
Améliorez la qualité des graphiques et améliorez les performances des tâches grâce à la mesure de l'efficacité temporelle (TE).
Obtenez des performances supérieures aux méthodes existantes dans une variété de tâches (marche, navigation, manipulation).
Limitations:
Des recherches supplémentaires sont nécessaires sur les méthodes d’intégration efficaces dans l’espace TDR et l’optimisation de la métrique TE.
Augmentation potentielle de la complexité de calcul à mesure que la taille du graphique augmente.
Des paramètres d'hyperparamètres optimisés pour des tâches spécifiques sont requis.
👍