본 논문은 부분적으로 관측 가능한 마르코프 의사결정 과정(POMDP)에서 최적 의사결정을 위한 새로운 정책 최적화 프레임워크를 제시한다. 이 방법은 정보 수집의 가치를 미래 관측을 예상하여 본질적으로 포착하는 비마르코프적 Feynman-Kac 모델에서 확률적 추론으로 정책 학습을 수행한다. 외부 탐색 보너스나 수작업 휴리스틱 없이 불확실성 감소(탐색)와 즉각적인 목표 추구(활용) 사이의 균형을 맞춘다. 최적의 궤적 분포에 따른 표본 하에서 역사 의존적 정책 기울기를 효율적으로 추정하는 중첩 순차적 몬테카를로(SMC) 알고리즘을 개발하여 이 모델 하에서 정책을 최적화한다. 기존 방법이 불확실성 하에서 행동하는 데 어려움을 겪는 표준 연속 POMDP 벤치마크에서 알고리즘의 효과를 보여준다.