Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MEReQ : Max-Ent Residual-Q Inverse RL pour un alignement efficace des échantillons à partir d'une intervention

Created by
  • Haebom

Auteur

Yuxin Chen, Chen Tang, Jianglan Wei, Chenran Li, Ran Tian, Xiang Zhang, Wei Zhan, Peter Stone, Masayoshi Tomizuka

Contour

Cet article aborde le problème de l'alignement du comportement des robots sur les préférences humaines pour le déploiement d'agents d'IA implémentés dans des environnements centrés sur l'humain. L'apprentissage interactif par imitation, dans lequel un expert humain observe l'exécution des politiques et fournit un retour d'information sur les interventions, est présenté comme une solution prometteuse. Les méthodes existantes présentent des limites quant à l'utilisation efficace des politiques antérieures pour faciliter l'apprentissage. Dans cet article, nous proposons l'apprentissage par renforcement inverse à Q résiduel à entropie maximale (MEReQ) pour un alignement efficace des politiques par rapport à l'échantillon, à partir d'une intervention humaine. Au lieu d'inférer l'ensemble des caractéristiques comportementales humaines, MEReQ infère une fonction de récompense résiduelle qui capture les différences entre les fonctions de récompense de base de l'expert humain et la politique antérieure. À l'aide de cette fonction de récompense résiduelle, la politique est ensuite alignée sur les préférences humaines grâce à l'apprentissage Q résiduel (RQL). Des évaluations approfondies sur des simulations et des tâches réelles démontrent que MEReQ permet un alignement efficace des politiques par rapport à l'échantillon, à partir d'une intervention humaine.

Takeaways, Limitations

Takeaways:
Nous présentons MEReQ, une nouvelle méthode d’alignement efficace des politiques à partir d’un échantillon à partir d’une intervention humaine.
Améliorez l’efficacité de l’apprentissage en utilisant efficacement des politiques préventives.
Efficacité vérifiée en simulation et en opérations réelles.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralité de la méthode proposée et son applicabilité à divers environnements.
La nécessité d’évaluer la fréquence et la qualité de l’intervention des experts humains.
Une évaluation de la robustesse des tâches complexes ou de divers types de retours humains est nécessaire.
👍