在不完美观测条件下进行最优决策需要智能体在追求即时目标(开发)和减少不确定性(探索)之间取得平衡。本文介绍了一种用于连续部分观测马尔可夫决策过程 (POMDP) 的新型策略优化框架,明确解决了这一挑战。本研究将策略学习视为非马尔可夫费曼-卡克模型中的概率推理,本质上是通过预测未来观测来捕捉信息收集的价值,而无需使用次优近似或人为设计的启发式方法。为了优化该模型中的策略,我们开发了一种嵌套顺序蒙特卡洛 (SMC) 算法,该算法可以有效地估计从 POMDP 诱导的最优轨迹分布中采样的历史相关策略梯度。我们在标准连续 POMDP 基准测试中证明了该算法的有效性,而现有方法在处理不确定性问题时往往举步维艰。