每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过因果解缠改进蒙特卡罗规划,适用于结构分解的马尔可夫决策过程

Created by
  • Haebom

作者

Larkin Liu、Shiqi Liu、Yinruo Hua、Matej Jusup

大纲

为了克服马尔可夫决策过程 (MDP) 的局限性,我们提出了利用因果结构的结构化分解马尔可夫决策过程 (SD-MDP)。SD-MDP 将 MDP 的时间因果图分解为独立的组件,从而实现降维并提高计算效率。对于资源分配问题,它将优化问题简化为分数背包问题,时间范围为 T,对数线性复杂度为 O(T log T)。这将复杂度降低到 O(T log T),优于具有多项式复杂度的传统概率规划方法,并且无论状态-动作空间的大小如何,它在高维空间中都有效。此外,SD-MDP 与蒙特卡洛树搜索 (MCTS) 相结合,在有限的模拟预算下获得更高的预期回报,并消除了简单的遗憾边界。与物流和金融领域的基准相比,它表现出卓越的策略性能。

Takeaways,Limitations

Takeaways:
我们利用 MDP 的因果结构提高了计算效率。
它在资源分配问题中实现了对数线性复杂度,优于现有方法。
它也可以应用于高维空间。
与 MCTS 的集成已显示出性能的提升。
物流、金融等领域合作取得积极成效。
Limitations:
论文中未具体说明 Limitations。(仅提供了论文摘要,因此无法提供 Limitations 的具体细节。)
👍