Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Gradientes robustos de política de memoria finita para POMDP de modelo oculto

Created by
  • Haebom

Autor

Maris FL Galesloot, Roman Andriushchenko, Milan \v{C}e\v{s}ka, Sebastian Junges, Nils Jansen

Describir

Este documento propone un Proceso de Decisión de Markov de Modelo Oculto (HM-POMDP) ​​para abordar la vulnerabilidad de las políticas a los cambios ambientales en procesos de decisión de Markov parcialmente observables (POMDP), que modelan problemas de toma de decisiones secuenciales bajo incertidumbre. HM-POMDP representa un conjunto de modelos de entorno múltiples (POMDP) ​​con espacios de acción y observación comunes. Supone que el modelo de entorno real está oculto entre varios modelos candidatos y que el modelo de entorno real es desconocido en tiempo de ejecución. Para calcular políticas robustas que logren un rendimiento suficiente dentro de cada POMDP, este documento combina (1) una técnica de verificación formal deductiva que admite la evaluación robusta inferible de políticas mediante el cálculo del POMDP del peor caso dentro del HM-POMDP, y (2) un método de ascenso-descenso para optimizar las políticas candidatas para el POMDP del peor caso. Los resultados experimentales demuestran que el método propuesto genera políticas que son más robustas y se generalizan mejor a POMDP desconocidos que los métodos existentes, y es escalable a HM-POMDP con más de 100.000 entornos.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para aprender eficientemente políticas que sean robustas a los cambios ambientales a través del marco HM-POMDP.
Demostramos que una combinación de verificación formal deductiva y métodos de ascenso por descenso permite la generación de políticas sólidas para HM-POMDP a gran escala.
El método propuesto produce políticas que son más robustas y tienen un mejor desempeño de generalización que los métodos existentes.
Limitations:
El rendimiento del método propuesto podría depender de la elección del POMDP en el peor de los casos. Sería necesario realizar más investigaciones para determinar eficientemente un POMDP en el peor de los casos.
Se requiere una mayor validación de la escalabilidad para el muy complejo HM-POMDP.
Se necesitan más investigaciones para determinar su aplicabilidad y rendimiento de generalización en entornos del mundo real.
👍