본 논문은 제한된 예산 내에서 다중 구성 요소의 단조 부분 관측 마르코프 의사결정 과정(POMDP)을 해결하는 문제를 다룹니다. 단조 POMDP는 시스템 상태가 복원 조치가 수행될 때까지 점진적으로 감소하는 시스템을 모델링하는 데 효과적이며, 특히 순차적인 수리 문제에 적합합니다. 다중 구성 요소의 경우 상태 공간이 기하급수적으로 증가하여 기존 방법으로는 계산이 불가능해지는 문제가 있습니다. 이를 해결하기 위해, 본 논문은 두 단계 접근 방식을 제안합니다. 먼저 각 구성 요소 POMDP의 최적 값 함수를 랜덤 포레스트 모델을 이용하여 근사하여, 예산을 구성 요소들 간에 최적으로 할당하는 것을 근사합니다. 다음으로, 각 독립적인 예산 제한 단일 구성 요소 단조 POMDP를 해결하기 위해 오라클 가이드 메타 학습 근접 정책 최적화(PPO) 알고리즘을 도입합니다. 오라클 정책은 해당 단조 마르코프 의사결정 과정(MDP)에 대한 값 반복을 수행하여 얻습니다. 이 두 단계 방법은 대규모 다중 구성 요소 단조 POMDP를 해결하는 데 확장성을 제공합니다. 실제 사례로 건물 유지보수 시나리오를 고려하여 제안된 방법의 효과를 보여주고, 구성 요소 수에 따른 계산 복잡도 분석을 통해 확장성을 입증합니다.