Markov Decision Processes(MDPs)の限界を克服するために,因果構造を利用したStructurally Decomposed MDP(SD-MDP)を提案する。 SD-MDPは、MDPの時間的およびグラフを独立したコンポーネントに分割し、次元の縮小と計算効率を確保します。リソース割り当て問題の場合、時間スカイラインTに対してO(T log T)の対数線形複雑さを持つ小数リュックサック問題で最適化問題を軽減します。これは、多項式の複雑さを示す従来の確率的プログラミング方法よりも優れており、状態 - 行動空間のサイズに関係なく高次元空間で有効です。さらに、SD-MDPはモンテカルロツリー探索(MCTS)と統合され、限られたシミュレーション予算の下でより高い期待補償を達成し、単純な後悔境界を消滅させる。物流と金融の分野では、ベンチマークと比較して優れた政策パフォーマンスが見られます。