Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Façonner des récompenses éparses dans l'apprentissage par renforcement : une approche semi-supervisée

Created by
  • Haebom

Auteur

Wenyun Li, Wenjie Huang, Chen Sun

Contour

Cet article présente une méthode proposée pour relever le défi de l'apprentissage d'une fonction de récompense efficace dans des scénarios réels où les signaux de récompense sont extrêmement rares. La méthode proposée effectue la formation de la récompense en utilisant toutes les transitions, y compris la transition vers la récompense nulle. Plus précisément, elle combine l'apprentissage semi-supervisé (SSL) et une nouvelle technique d'augmentation des données pour apprendre les représentations de l'espace de trajectoire à partir de la transition vers la récompense nulle, améliorant ainsi l'efficacité de la formation de la récompense. Des résultats expérimentaux sur des jeux Atari et la manipulation de robots démontrent que la méthode proposée surpasse les méthodes basées sur l'apprentissage supervisé en matière d'inférence de récompense et améliore les scores des agents. En particulier, dans des environnements où les récompenses sont encore plus rares, la méthode proposée atteint un score de premier ordre, jusqu'à deux fois supérieur à celui des méthodes existantes. La technique d'augmentation des données à double entropie proposée améliore significativement les performances, atteignant un score de premier ordre supérieur de 15,8 % à celui des autres méthodes d'augmentation.

Takeaways, Limitations

Takeaways:
Une nouvelle méthode pour la formation efficace de récompenses dans un environnement de récompenses rares est présentée.
Exploitation des informations de transfert à récompense nulle à l'aide de l'apprentissage semi-supervisé et de l'augmentation des données.
A démontré des performances supérieures par rapport aux méthodes existantes dans les expériences de manipulation de jeux et de robots Atari.
Validation de l'efficacité des techniques d'augmentation de données à double entropie.
Limitations:
D’autres expériences sont nécessaires pour évaluer les performances de généralisation de la méthode proposée.
Une vérification de l’applicabilité est nécessaire pour différents types d’environnements de récompenses rares.
Des recherches sont nécessaires pour définir les paramètres optimaux des techniques d’augmentation des données.
👍