为了克服马尔可夫决策过程 (MDP) 的局限性,我们提出了利用因果结构的结构化分解马尔可夫决策过程 (SD-MDP)。SD-MDP 将 MDP 的时间因果图分解为独立的组件,从而实现降维并提高计算效率。对于资源分配问题,它将优化问题简化为分数背包问题,时间范围为 T,对数线性复杂度为 O(T log T)。这将复杂度降低到 O(T log T),优于具有多项式复杂度的传统概率规划方法,并且无论状态-动作空间的大小如何,它在高维空间中都有效。此外,SD-MDP 与蒙特卡洛树搜索 (MCTS) 相结合,在有限的模拟预算下获得更高的预期回报,并消除了简单的遗憾边界。与物流和金融领域的基准相比,它表现出卓越的策略性能。