Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Pourquoi l'agent a pris cette décision : apprentissage explicatif contrastif pour l'apprentissage par renforcement

Created by
  • Haebom

Auteur

Rui Zuo, Simon Khan, Zifan Wang, Garrett Ethan Katz, Qinru Qiu

Contour

L'apprentissage par renforcement (RL) a connu un succès remarquable dans la résolution de problèmes décisionnels complexes, mais l'ininterprétabilité de ses processus décisionnels freine son adoption dans des domaines critiques. Les approches d'IA explicable (xAI) existantes échouent souvent à fournir des explications pertinentes aux agents RL, notamment parce qu'elles négligent la nature contrastive du raisonnement humain (répondre à des questions telles que « Pourquoi avez-vous choisi cette action plutôt qu'une autre ? »). Pour combler cette lacune, cet article propose $\textbf{VisionMask}$, un nouveau cadre d'apprentissage contrastif qui utilise des méthodes auto-supervisées pour entraîner les agents à générer des explications en comparant explicitement l'action choisie par l'agent à des actions alternatives dans un état donné. Des expériences dans divers environnements RL démontrent l'efficacité de VisionMask en termes de fidélité, de robustesse et de complexité. Les résultats démontrent que VisionMask améliore significativement la compréhension humaine du comportement des agents tout en maintenant la précision et la fidélité. Nous présentons également des exemples illustrant comment VisionMask peut être utilisé pour des analyses contre-empiriques. Cette recherche comble le fossé entre RL et xAI, ouvrant la voie à des systèmes RL plus sûrs et plus interprétables.

Takeaways, Limitations_

Takeaways:
Améliorer l'explicabilité des processus décisionnels des agents d'apprentissage par renforcement.
Un nouveau cadre explicatif basé sur l’apprentissage contrastif qui prend en compte le raisonnement humain est présenté.
Meilleure compréhension du comportement des agents et maintien de la précision et de la fidélité avec VisionMask.
Présenter la possibilité d’une analyse contrefactuelle.
Contribuer au développement de systèmes RL plus sûrs et plus interprétables.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de l’environnement expérimental présenté dans l’article.
Une analyse plus approfondie du coût de calcul et de l’efficacité de VisionMask est nécessaire.
La vérification de l’applicabilité est nécessaire pour différents types d’agents et d’environnements d’apprentissage par renforcement.
👍