Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Correspondance de flux composite pour l'apprentissage par renforcement avec des données de dynamique décalée

Created by
  • Haebom

Auteur

Lingkai Kong, Haichuan Wang, Tonghan Wang, Guojun Xiong, Milind Tambe

Contour

Dans cet article, nous proposons une méthode visant à améliorer l'efficacité d'échantillonnage de l'apprentissage par renforcement (RL) en exploitant des données hors ligne pré-collectées de l'environnement source. Pour résoudre le problème que posent les méthodes existantes en raison des différences de dynamique de transition entre les environnements source et cible, nous présentons une nouvelle méthode appelée CompFlow. Basée sur le lien théorique entre l'appariement de flux et le transport optimal, CompFlow modélise la dynamique cible comme un flux conditionnel basé sur la distribution de sortie du flux du domaine source. Cela améliore les performances de généralisation de l'apprentissage de la dynamique cible et, en principe, estime la différence de dynamique à l'aide de la distance de Wasserstein entre les transitions source et cible. De plus, nous prouvons théoriquement que l'écart de performance par rapport à la politique optimale est réduit en introduisant une stratégie de collecte de données active optimiste qui privilégie l'exploration des zones présentant de grandes différences de dynamique. Les résultats expérimentaux montrent que CompFlow surpasse les méthodes de pointe existantes sur plusieurs benchmarks RL avec dynamique décalée.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode permettant d’utiliser efficacement les données hors ligne pour améliorer l’efficacité de l’échantillonnage de RL même lorsque la dynamique de transfert entre les environnements source et cible diffère considérablement.
L'estimation des différences dynamiques à l'aide de la distance de Wasserstein est plus efficace pour résoudre les problèmes de support disjoint que la divergence KL ou l'information mutuelle.
Nous démontrons théoriquement qu’une stratégie de collecte de données active optimiste peut réduire l’écart de performance par rapport à la politique optimale.
Vérifié expérimentalement pour surpasser les méthodes existantes sur plusieurs benchmarks RL.
Limitations:
Manque d’analyse du coût de calcul et de la complexité de la méthode proposée.
Des expériences supplémentaires sont nécessaires pour déterminer les performances de généralisation dans différents environnements et tâches.
Les calculs de distance de Wasserstein peuvent être coûteux en termes de calcul.
Des recherches supplémentaires sont nécessaires sur son applicabilité dans des environnements complexes réels.
👍