불완전 관찰 하에서 최적 의사 결정은 에이전트가 불확실성을 줄이는 것(탐험)과 즉각적인 목표를 추구하는 것(이용) 사이의 균형을 필요로 합니다. 본 논문에서는 이러한 과제를 명시적으로 해결하는 연속 부분 관찰 마르코프 결정 프로세스(POMDP)를 위한 새로운 정책 최적화 프레임워크를 소개합니다. 본 연구는 정책 학습을 비마르코프 Feynman-Kac 모델에서 확률적 추론으로 간주하여 하위 최적 근사 또는 수작업 기반 휴리스틱 없이 미래 관측을 예상하여 정보 수집의 가치를 본질적으로 포착합니다. 이 모델에서 정책을 최적화하기 위해 POMDP에 의해 유도된 최적 궤적 분포에서 샘플링된 기록 종속 정책 기울기를 효율적으로 추정하는 중첩 순차 몬테카를로(SMC) 알고리즘을 개발했습니다. 기존 방법들이 불확실성 하에서 어려움을 겪는 표준 연속 POMDP 벤치마크에서 알고리즘의 효과를 입증했습니다.