Bài báo này đề xuất một phương pháp mới để giải quyết một quá trình quyết định Markov đơn điệu quan sát được một phần (POMDP) với nhiều thành phần trong một ngân sách hạn chế. Các POMDP đơn điệu rất phù hợp để mô hình hóa các hệ thống trong đó trạng thái suy giảm dần và tồn tại cho đến khi hành động sửa chữa được thực hiện và đặc biệt hiệu quả đối với các vấn đề sửa chữa tuần tự. Các phương pháp hiện có gặp phải những khó khăn về tính toán do không gian trạng thái tăng theo cấp số nhân khi số lượng thành phần tăng lên. Bài báo này trình bày một phương pháp tiếp cận hai bước để giải quyết vấn đề này. Đầu tiên, chúng tôi xấp xỉ hàm giá trị tối ưu của mỗi POMDP thành phần với một mô hình rừng ngẫu nhiên để phân bổ ngân sách hiệu quả cho từng thành phần. Tiếp theo, chúng tôi sử dụng thuật toán tối ưu hóa chính sách gần đúng (PPO) được hướng dẫn bởi học siêu dữ liệu để giải quyết từng POMDP đơn điệu thành phần độc lập, bị ràng buộc ngân sách. Chính sách của học thuyết thu được thông qua phép lặp giá trị trên quá trình quyết định Markov đơn điệu (MDP) tương ứng. Chúng tôi chứng minh tính hiệu quả của phương pháp đề xuất bằng cách xem xét kịch bản kiểm tra và sửa chữa thực tế của một tòa nhà hành chính và chứng minh khả năng mở rộng của phương pháp này bằng cách phân tích độ phức tạp tính toán theo số lượng thành phần.