Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Diversification des comportements politiques grâce à la curiosité comportementale extrinsèque

Created by
  • Haebom

Auteur

Zhenglin Wan, Xingrui Yu, David Mark Bossens, Yueming Lyu, Qing Guo, Flint Xiaofeng Fan, Yew Soon Ong, Ivor Tsang

Contour

Cet article présente l'apprentissage par renforcement inverse de la diversité de qualité (QD-IRL), un nouveau cadre qui intègre l'optimisation de la diversité de qualité (QD) à l'apprentissage par renforcement inverse (IRL) pour surmonter les limites de l'apprentissage par stratégie mono-expert et apprendre des comportements diversifiés et robustes. Plus précisément, nous introduisons la curiosité comportementale extrinsèque (EBC), qui offre des récompenses de curiosité supplémentaires basées sur la nouveauté d'un comportement par rapport aux archives comportementales existantes. Des expériences sur diverses tâches de locomotion robotique démontrent que l'EBC améliore les performances des algorithmes QD-IRL tels que GAIL, VAIL et DiffAIL jusqu'à 185 %, et surpasse les performances des experts jusqu'à 20 % dans un environnement humanoïde. De plus, nous démontrons que l'EBC est applicable aux algorithmes d'apprentissage par renforcement QD basés sur l'arborescence de gradient et qu'il s'agit d'une technique générale qui améliore significativement les performances. Le code source est disponible sur GitHub.

Takeaways, Limitations

Takeaways:
Nous présentons QD-IRL et EBC, de nouveaux cadres qui surmontent les limites de l'apprentissage des politiques par un seul expert et apprennent des comportements divers et robustes.
Vérification expérimentale de l'exploration et de l'amélioration des performances de divers comportements de mouvement de robot via EBC.
Présentation d'une technique générale applicable à divers algorithmes IRL et QD-RL.
Obtenez des résultats qui dépassent les performances des experts.
Assurer la reproductibilité et l’extensibilité grâce à la divulgation du code source.
Limitations:
L’efficacité de l’EBC peut dépendre d’environnements et d’algorithmes spécifiques.
Des recherches supplémentaires sont nécessaires sur la manière de gérer les archives comportementales à grande échelle et de réaliser des comparaisons efficaces.
Une validation et une assurance de sécurité supplémentaires sont nécessaires pour les applications du monde réel.
Des recherches supplémentaires sont nécessaires sur l’optimisation et la généralisation de la conception de la compensation EBC.
👍