每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

外部时间过程下的马尔可夫决策过程

Created by
  • Haebom

作者

Ranga Shaarad Ayyagari、Revanth Raj Eega、Ambedkar Dukkipati

大纲

本文研究受外部时间过程影响的马尔可夫决策过程 (MDP),以克服现有强化学习算法主要假设静态环境的局限性。我们证明,当外部过程引起的变化满足特定条件时,只需考虑过去事件的有限历史即可解决问题。为此,我们提出了一种策略迭代算法,该算法同时考虑环境的当前状态和过去外部过程事件的有限历史,并进行了理论分析。虽然该算法不保证收敛性,但它可以保证在状态空间的特定区域内实现策略改进,具体取决于近似策略和值函数引起的误差。此外,我们给出了一种最小二乘策略评估和策略改进算法的样本复杂度,该算法考虑了有限过去时间事件的积分引起的近似值。该算法适用于满足特定条件的一般离散时间过程,并对具有高斯标记的离散时间霍克斯过程进行了补充分析。我们还展示了在传统控制环境中进行策略评估和部署的实验结果。

Takeaways,Limitations

Takeaways:
提出了一种解决静态环境之外的非平稳环境中的强化学习问题的新方法。
目前的条件允许仅使用过去事件的有限历史来解决问题。
提出并理论分析一种适用于非平稳环境的新型策略迭代算法。
最小二乘策略评估和策略改进算法的样本复杂性分析。
介绍了对包括霍克斯过程在内的各种时间过程的适用性。
Limitations:
所提出的策略迭代算法的收敛性无法保证。
保证策略改进的状态空间取决于近似误差。
实验结果仅限于传统的控制环境。需要进一步研究以确定其对复杂、非平稳现实环境的普遍性。
👍