Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Solution efficace et apprentissage de MDP factorisés robustes

Created by
  • Haebom

Auteur

Yannik Schnitzer, Alessandro Abate, David Parker

Contour

Cet article présente une nouvelle méthode de résolution et d'apprentissage pour les MDP robustes (r-MDP). Cette méthode étend les MDP en modélisant explicitement l'incertitude épistémique sur la dynamique de transition. L'apprentissage des r-MDP par interactions avec un environnement inconnu permet la synthèse de politiques robustes avec des garanties de performance prouvables (PAC), mais peut nécessiter de nombreuses interactions avec les échantillons. Dans cet article, nous proposons une nouvelle méthode de résolution et d'apprentissage des r-MDP basée sur une représentation factorisée de l'espace d'état qui exploite l'indépendance des incertitudes du modèle entre les composants du système. La synthèse de politiques pour les r-MDP factorisés est complexe et conduit à un problème d'optimisation non convexe, mais nous démontrons comment la reformuler en une approche de programmation linéaire exploitable. Sur la base de cette approche, nous proposons également une méthode d'apprentissage direct de la représentation factorisée du modèle. Les résultats expérimentaux démontrent que l'exploitation de la structure factorisée permet des gains dimensionnels en efficacité d'échantillonnage et génère des politiques robustes, plus efficaces que les méthodes de pointe, avec des garanties de performance plus strictes.

Takeaways, Limitations_

Takeaways:
Nous montrons que l’efficacité de la résolution et de l’apprentissage du r-MDP peut être grandement améliorée en utilisant une représentation de l’espace d’état factorisé.
Une méthode est présentée pour transformer des problèmes d’optimisation non convexes en méthodes de programmation linéaire gérables.
Il est possible de générer des politiques robustes, plus efficaces et offrant des garanties de performance plus strictes que les méthodes de pointe.
Des gains dimensionnels peuvent être obtenus en termes d’efficacité d’échantillonnage.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si la méthode proposée est applicable à tous les types de r-MDP.
Manque d’analyse de la complexité et du coût de calcul de l’apprentissage des représentations de modèles factorisés.
Les résultats expérimentaux sont limités à un environnement spécifique et nécessitent une vérification supplémentaire pour pouvoir être généralisés.
👍