本文研究受外部时间过程影响的马尔可夫决策过程 (MDP),以克服现有强化学习算法主要假设静态环境的局限性。我们证明,当外部过程引起的变化满足特定条件时,只需考虑过去事件的有限历史即可解决问题。为此,我们提出了一种策略迭代算法,该算法同时考虑环境的当前状态和过去外部过程事件的有限历史,并进行了理论分析。虽然该算法不保证收敛性,但它可以保证在状态空间的特定区域内实现策略改进,具体取决于近似策略和值函数引起的误差。此外,我们给出了一种最小二乘策略评估和策略改进算法的样本复杂度,该算法考虑了有限过去时间事件的积分引起的近似值。该算法适用于满足特定条件的一般离散时间过程,并对具有高斯标记的离散时间霍克斯过程进行了补充分析。我们还展示了在传统控制环境中进行策略评估和部署的实验结果。