본 논문은 연속적인 상태, 행동, 관측 공간을 갖는 부분적으로 관측 가능한 마르코프 의사결정 과정(POMDP)을 해결하는 문제를 다룬다. 이는 실제 세계의 모빌리티 및 로봇 공학 응용 분야에서 자율적 계획에 중요하다. 기존의 샘플 기반 접근 방식은 합리적인 시간 내에 거의 최적의 해를 찾을 수 없다는 한계가 있다. 본 논문은 두 가지 이론적 기여를 제시한다. 첫째, 형제 행동 분기 간에 값 정보를 공유할 수 있는 새로운 다중 중요도 샘플링(MIS) 트리를 제안한다. 이 MIS 트리는 경사 기반 업데이트와 같은 탐색 시간 동안 행동 업데이트를 지원한다. 둘째, 전이 가능성에 기반한 온라인 샘플링을 사용하여 값 기울기를 계산하는 새로운 방법론을 제안한다. 이는 MDP에 적용 가능하며, 전파된 믿음 트릭을 적용하여 입자 믿음을 통해 POMDP로 확장된다. 기울기 추정기는 효율적인 몬테카를로 샘플링을 사용하여 MIS 트리를 통해 실제로 계산된다. 이 두 부분은 새로운 계획 알고리즘인 행동 기울기 몬테카를로 트리 탐색(AGMCTS)으로 결합된다. 시뮬레이션 환경에서 AGMCTS의 적용 가능성과 순수하게 샘플링에 의존하는 연속 온라인 POMDP 솔버에 대한 장점을 보여주고 추가적인 의미를 논의한다.