본 논문은 연속적인 상태, 행동, 관측 공간에서 작동하는 자율 시스템을 위한 불확실성 하에서의 계획 및 추론 문제를 다룬다. 기존의 POMDP 온라인 계획 방법들은 대부분 샘플 기반이지만, 고차원 기울기 최적화의 장점을 활용하지 못한다. 본 논문은 전이 확률을 이용한 MDP 및 POMDP에 대한 새로운 행동 기울기 정리를 제시하여 트리 탐색 중 기울기 정보에 접근할 수 있도록 한다. 또한, 변화하는 행동 분기에 대해 샘플을 재사용하여 일관된 값 추정을 가능하게 하는 다중 중요도 샘플링(MIS) 트리를 도입하고, 물리적 영역에서 일반적인 매끄러운 생성 모델에 대한 면적 공식을 통해 정확한 전이 확률 계산을 유도한다. 이러한 요소들을 결합하여, 비모수 입자 탐색과 온라인 기울기 개선을 POMDP에서 결합한 최초의 계획자인 행동 기울기 몬테카를로 트리 탐색(AGMCTS)을 제시한다. 여러 어려운 연속 MDP 및 POMDP 벤치마크에서 AGMCTS는 샘플 전용 솔버보다 솔루션 품질이 우수함을 보였다.