Cet article propose un processus de décision markovien à modèle caché (HM-POMDP) pour traiter la vulnérabilité des politiques aux changements environnementaux dans les processus de décision markoviens partiellement observables (POMDP), qui modélisent des problèmes de prise de décision séquentielle dans des conditions d'incertitude. HM-POMDP représente un ensemble de modèles d'environnement multiples (POMDP) avec des espaces d'action et d'observation communs. Il suppose que le véritable modèle d'environnement est caché parmi plusieurs modèles candidats et que le modèle d'environnement réel est inconnu à l'exécution. Pour calculer des politiques robustes qui atteignent des performances suffisantes au sein de chaque POMDP, cet article combine (1) une technique de vérification formelle déductive qui prend en charge l'évaluation inférable de politiques robustes en calculant le POMDP du pire cas au sein du HM-POMDP, et (2) une méthode d'ascension-descente pour optimiser les politiques candidates pour le POMDP du pire cas. Les résultats expérimentaux démontrent que la méthode proposée génère des politiques plus robustes et se généralise mieux aux POMDP inconnus que les méthodes existantes, et est évolutive vers des HM-POMDP avec plus de 100 000 environnements.