Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

BCR-DRL : Récompense tenant compte du comportement et du contexte pour l'apprentissage par renforcement profond dans la coordination homme-IA

Created by
  • Haebom

Auteur

Xin Hao, Bahareh Nakisa, Mohmmad Naim Rastgoo, Gaoyang Pang

Contour

Cet article propose une récompense comportementale et contextuelle (BCR) pour relever deux défis majeurs de l'apprentissage par renforcement profond (DRL) dans la collaboration homme-IA (HAIC) : les récompenses éparses et les comportements humains imprévisibles. La BCR repose sur un double système de récompense intrinsèque composé de récompenses intrinsèques auto-motivées par l'IA et de récompenses intrinsèques motivationnelles par l'humain, ainsi que d'un mécanisme de pondération contextuelle qui exploite les informations contextuelles pour améliorer la coopération avec les partenaires humains. Les résultats de simulation dans un environnement surchauffé montrent que la méthode proposée augmente les récompenses éparses cumulatives d'environ 20 % et améliore l'efficacité d'échantillonnage d'environ 38 % par rapport aux références de l'état de l'art.

Takeaways, Limitations

Takeaways:
Un nouveau cadre BCR est présenté pour résoudre les problèmes de récompenses rares et de comportement humain imprévisible.
Exploration améliorée grâce à un double système de récompense intrinsèque et utilisation améliorée grâce à un mécanisme de pondération sensible au contexte.
Des expériences menées dans un environnement surchauffé démontrent empiriquement des améliorations cumulatives en termes de récompense et d’efficacité des échantillons.
Limitations:
Ces résultats expérimentaux se limitent à l'environnement surchauffé. Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à d'autres environnements HAIC.
Dépendance à la précision de la modélisation du comportement humain. Une modélisation plus sophistiquée du comportement humain pourrait être nécessaire.
Des recherches supplémentaires sont nécessaires sur la sélection des informations contextuelles et l’optimisation des mécanismes de pondération.
👍