Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Gradients de politique de mémoire finie robustes pour les POMDP à modèle caché

Created by
  • Haebom

Auteur

Maris FL Galesloot, Roman Andriushchenko, Milan \v{C}e\v{s}ka, Sebastian Junges, Nils Jansen

Contour

Cet article propose un processus de décision markovien à modèle caché (HM-POMDP) ​​pour traiter la vulnérabilité des politiques aux changements environnementaux dans les processus de décision markoviens partiellement observables (POMDP), qui modélisent des problèmes de prise de décision séquentielle dans des conditions d'incertitude. HM-POMDP représente un ensemble de modèles d'environnement multiples (POMDP) ​​avec des espaces d'action et d'observation communs. Il suppose que le véritable modèle d'environnement est caché parmi plusieurs modèles candidats et que le modèle d'environnement réel est inconnu à l'exécution. Pour calculer des politiques robustes qui atteignent des performances suffisantes au sein de chaque POMDP, cet article combine (1) une technique de vérification formelle déductive qui prend en charge l'évaluation inférable de politiques robustes en calculant le POMDP du pire cas au sein du HM-POMDP, et (2) une méthode d'ascension-descente pour optimiser les politiques candidates pour le POMDP du pire cas. Les résultats expérimentaux démontrent que la méthode proposée génère des politiques plus robustes et se généralise mieux aux POMDP inconnus que les méthodes existantes, et est évolutive vers des HM-POMDP avec plus de 100 000 environnements.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode permettant d’apprendre efficacement des politiques robustes aux changements environnementaux grâce au cadre HM-POMDP.
Nous montrons qu'une combinaison de vérification formelle déductive et de méthodes d'ascension par descente permet une génération de politiques robustes pour les HM-POMDP à grande échelle.
La méthode proposée produit des politiques plus robustes et présentant de meilleures performances de généralisation que les méthodes existantes.
Limitations:
Les performances de la méthode proposée pourraient dépendre du choix du POMDP dans le pire des cas. Des recherches supplémentaires pourraient être nécessaires pour trouver efficacement un POMDP dans le pire des cas.
Une validation supplémentaire de l’évolutivité vers des HM-POMDP très complexes est nécessaire.
Des recherches supplémentaires sont nécessaires pour déterminer son applicabilité et ses performances de généralisation dans des contextes réels.
👍