Markov Decision Processes (MDPs)의 한계를 극복하기 위해, 인과 구조를 활용한 Structurally Decomposed MDP (SD-MDP)를 제안합니다. SD-MDP는 MDP의 시간적 인과 그래프를 독립적인 구성 요소로 분할하여 차원 축소와 계산 효율성을 확보합니다. 자원 할당 문제의 경우, 시간 지평선 T에 대해 O(T log T)의 로그 선형 복잡도를 가진 분수 배낭 문제로 최적화 문제를 줄입니다. 이는 다항식 복잡도를 보이는 기존 확률적 프로그래밍 방법보다 우수하며, 상태-행동 공간 크기와 무관하게 고차원 공간에서 유효합니다. 또한, SD-MDP는 몬테 카를로 트리 탐색 (MCTS)과 통합되어 제한된 시뮬레이션 예산 하에서 더 높은 기대 보상을 달성하며 단순 후회 경계를 소멸시킵니다. 물류 및 금융 분야에서 벤치마크 대비 우수한 정책 성능을 보입니다.