Bài báo này đề xuất một Quy trình quyết định Markov mô hình ẩn (HM-POMDP) để giải quyết tính dễ bị tổn thương của các chính sách đối với những thay đổi về môi trường trong các quy trình quyết định Markov có thể quan sát một phần (POMDP), mô hình hóa các vấn đề ra quyết định tuần tự trong điều kiện không chắc chắn. HM-POMDP biểu diễn một tập hợp nhiều mô hình môi trường (POMDP) với không gian hành động và quan sát chung. Nó giả định rằng mô hình môi trường thực sự được ẩn giữa một số mô hình ứng viên và mô hình môi trường thực tế là không xác định khi chạy. Để tính toán các chính sách mạnh mẽ đạt được hiệu suất đủ trong mỗi POMDP, bài báo này kết hợp (1) một kỹ thuật xác minh hình thức suy diễn hỗ trợ đánh giá chính sách mạnh mẽ có thể suy ra bằng cách tính toán POMDP trường hợp xấu nhất trong HM-POMDP và (2) một phương pháp tăng dần-giảm dần để tối ưu hóa các chính sách ứng viên cho POMDP trường hợp xấu nhất. Kết quả thử nghiệm chứng minh rằng phương pháp được đề xuất tạo ra các chính sách mạnh mẽ hơn và khái quát hóa tốt hơn đối với các POMDP chưa biết so với các phương pháp hiện có và có thể mở rộng quy mô đối với HM-POMDP với hơn 100.000 môi trường.