Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Planification itérative pessimiste avec RNN pour des POMDP robustes

Created by
  • Haebom

Auteur

Maris FL Galesloot, Marnix Suilen, Thiago D. Sim ao, Steven Carr, Matthijs TJ Spaan, Ufuk Topcu, Nils Jansen

Contour

Cet article propose la planification itérative pessimiste (PIP), un nouveau cadre pour les processus de décision markoviens partiellement observables (POMDP) ​​robustes qui prennent en compte l'incertitude du modèle. PIP calcule une politique robuste qui prend en compte les instances probabilistes du pire cas en utilisant des ensembles d'incertitudes sur les fonctions de transition et d'observation. PIP sélectionne itérativement l'instance probabiliste du pire cas et calcule son contrôleur à états finis (CEF). Dans cet article, nous proposons l'algorithme rFSCNet, qui optimise les réseaux de neurones récurrents pour calculer le CEF. Les résultats expérimentaux démontrent que rFSCNet surpasse les méthodes existantes pour le calcul de politiques robustes.

Takeaways, Limitations_

Takeaways:
Une solution efficace au problème POMDP robuste compte tenu de l'incertitude du modèle.
L'algorithme rFSCNet permet un calcul de politique robuste qui surpasse les méthodes existantes.
Apprentissage efficace des contrôleurs à états finis à l'aide de réseaux neuronaux récurrents.
Limitations:
Absence d’une analyse claire de la complexité computationnelle de la méthode proposée.
Des recherches supplémentaires sont nécessaires sur la généralisabilité à différents types d’ensembles d’incertitudes.
La portée de l’évaluation expérimentale peut être limitée.
👍