Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Lorsqu'un agent d'apprentissage par renforcement rencontre des inconnues inconnues

Created by
  • Haebom

Auteur

Juntian Zhu, Miguel de Carvalho, Zhouwang Yang, Fengxiang He

Contour

Cet article présente un modèle mathématique et une méthode pour résoudre des situations d'apprentissage par renforcement où un agent atteint un état inconnu. Nous proposons un modèle de « processus de décision de Markov épisodique avec prise de conscience croissante » (EMDP-GA) pour les situations où l'agent atteint un état hors de son domaine de conscience. Le modèle EMDP-GA utilise la technique d'« expansion de valeur non informative » (NIVE), qui initialise la fonction de valeur du nouvel état avec une croyance non informative (la valeur moyenne du domaine connu). Cette conception reflète l'absence de connaissance préalable de la valeur de l'état. De plus, nous appliquons l'apprentissage Q par la borne supérieure de confiance de l'impulsion pour entraîner le modèle EMDP-GA. Par conséquent, malgré l'accès à un état inconnu, nous démontrons que le modèle proposé atteint un niveau de regret comparable aux méthodes de pointe (SOTA), et que sa complexité de calcul et d'espace est comparable à celle des méthodes SOTA.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau modèle (EMDP-GA) et un algorithme (NIVE) qui permettent aux agents d'apprentissage par renforcement de gérer efficacement des situations inconnues.
Même dans des situations inconnues, il maintient un niveau de performance similaire à celui de l'état de l'art, tout en garantissant l'efficacité informatique et spatiale.
Il a contribué au développement théorique de ce domaine en fournissant une base mathématique au problème inconnu.
Limitations:
Des expériences et des analyses supplémentaires sont nécessaires pour évaluer les performances de généralisation du modèle EMDP-GA et de la technique NIVE présentées dans cet article dans des environnements réels.
Des recherches supplémentaires sont nécessaires sur les différents types de situations inconnues et sur la complexité des agents.
Des recherches supplémentaires sont nécessaires sur l’optimisation des stratégies d’initialisation de croyances non informatives.
👍