Este documento propone un Proceso de Decisión de Markov de Modelo Oculto (HM-POMDP) para abordar la vulnerabilidad de las políticas a los cambios ambientales en procesos de decisión de Markov parcialmente observables (POMDP), que modelan problemas de toma de decisiones secuenciales bajo incertidumbre. HM-POMDP representa un conjunto de modelos de entorno múltiples (POMDP) con espacios de acción y observación comunes. Supone que el modelo de entorno real está oculto entre varios modelos candidatos y que el modelo de entorno real es desconocido en tiempo de ejecución. Para calcular políticas robustas que logren un rendimiento suficiente dentro de cada POMDP, este documento combina (1) una técnica de verificación formal deductiva que admite la evaluación robusta inferible de políticas mediante el cálculo del POMDP del peor caso dentro del HM-POMDP, y (2) un método de ascenso-descenso para optimizar las políticas candidatas para el POMDP del peor caso. Los resultados experimentales demuestran que el método propuesto genera políticas que son más robustas y se generalizan mejor a POMDP desconocidos que los métodos existentes, y es escalable a HM-POMDP con más de 100.000 entornos.