부분적으로 관측 가능한 마르코프 의사결정 과정(POMDP)은 상태 불확실성 하에서 확률적 환경에서의 순차적 의사결정을 위한 일반적인 수학적 모델입니다. POMDP는 종종 온라인으로 해결되는데, 이를 통해 알고리즘이 실시간으로 새로운 정보에 적응할 수 있습니다. 온라인 솔버는 일반적으로 중요도 재샘플링 기반의 부트스트랩 입자 필터를 사용하여 신념 분포를 업데이트합니다. 최신 관측값과 이전 상태를 고려하여 이상적인 상태 분포에서 직접 샘플링하는 것이 불가능하기 때문에, 입자 필터는 예측 및 재샘플링 단계를 통해 상태를 전파하고 가중치를 조정하여 사후 신념 분포를 근사합니다. 그러나 실제로, 특히 수신된 관측값이 매우 유익한 경우, 상태 전이 모델이 사후 신념 분포와 잘 일치하지 않으면 중요도 재샘플링 기법은 종종 입자 퇴화 및 샘플 고갈로 이어집니다. 본 논문에서는 반복적인 몬테카를로 단계를 통해 상태 전이 분포와 최적 분포 사이에 브리지 분포 시퀀스를 구성하는 접근 방식을 제안하여 온라인 POMDP 솔버에서 노이즈가 많은 관측값을 더 잘 수용합니다. 제안된 알고리즘은 여러 어려운 POMDP 도메인에서 평가되었을 때 최첨단 방법보다 훨씬 우수한 성능을 보여줍니다.