본 논문은 제한된 예산 내에서 여러 구성 요소를 가진 단조 부분 관측 마르코프 결정 과정(POMDP) 문제를 해결하는 새로운 방법을 제안합니다. 단조 POMDP는 시스템 상태가 점진적으로 감소하다가 복구 조치가 수행될 때까지 유지되는 시스템을 모델링하는 데 적합하며, 특히 순차적인 수리 문제에 효과적입니다. 기존 방법들은 구성 요소 수가 증가함에 따라 상태 공간이 기하급수적으로 증가하여 계산상 어려움을 겪습니다. 본 논문에서는 이 문제를 해결하기 위해 두 단계 접근 방식을 제시합니다. 먼저, 각 구성 요소 POMDP의 최적 값 함수를 랜덤 포레스트 모델로 근사하여 예산을 각 구성 요소에 효율적으로 할당하는 방법을 제시합니다. 다음으로, 각 독립적인 예산 제약 단일 구성 요소 단조 POMDP를 해결하기 위해 오라클 안내 메타 학습 근사 정책 최적화(PPO) 알고리즘을 사용합니다. 오라클 정책은 해당 단조 마르코프 결정 과정(MDP)에 대한 값 반복을 통해 얻습니다. 실제 사례로 관리 건물의 검사 및 수리 시나리오를 고려하여 제안된 방법의 효율성을 보여주고, 구성 요소 수에 따른 계산 복잡도 분석을 통해 확장성을 입증합니다.