Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RIZE : Apprentissage par imitation régularisé via l'apprentissage par renforcement distributionnel

Created by
  • Haebom

Auteur

Adib Karimi, Mohammad Mehdi Ebadzadeh

Contour

Cet article propose une nouvelle méthode d'apprentissage par renforcement inverse (IRL) qui s'attaque à la rigidité des structures de récompense fixes et à l'inflexibilité de la régulation implicite des récompenses. Basée sur le cadre IRL à entropie maximale, elle intègre un régularisateur de différence temporelle au carré (TD) avec une cible adaptative qui évolue dynamiquement pendant l'apprentissage, imposant des limites adaptatives aux récompenses restaurées et facilitant une prise de décision robuste. Afin de recueillir des informations plus riches sur les gains, l'apprentissage par renforcement distributionnel est intégré au processus d'apprentissage. Expérimentalement, la méthode proposée atteint des performances de niveau expert sur la tâche complexe MuJoCo et surpasse les méthodes de base sur les tâches humanoïdes lors de trois démonstrations. Des expériences approfondies et des études d'ablation valident l'efficacité de cette méthode et apportent un éclairage sur la dynamique de la récompense dans l'apprentissage par imitation.

Takeaways, Limitations_

Takeaways:
Une nouvelle méthode d’apprentissage par renforcement inverse qui surmonte les limites des structures de récompense fixes est présentée.
Promouvoir une prise de décision robuste grâce à un régularisateur de temps au carré avec des cibles adaptatives.
Exploitez des informations de revenus plus riches grâce à l'intégration de l'apprentissage par renforcement distribué.
Atteignez des performances de niveau expert et surpassez les méthodes de référence sur les tâches MuJoCo complexes.
Fournit de nouvelles perspectives sur la dynamique des récompenses
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Une vérification de l’applicabilité pour divers environnements et tâches est requise.
La nécessité de résoudre les problèmes de coût de calcul dans les espaces d'état de grande dimension
👍