연속적인 상태, 행동 및 관측 공간을 갖는 부분적으로 관측 가능한 마르코프 결정 과정(POMDP)을 해결하는 것은 많은 실제 이동성 및 로봇 공학 응용 분야에서 자율적 계획에 중요합니다. 현재의 접근 방식은 대부분 샘플 기반이며, 합리적인 시간 내에 거의 최적의 솔루션에 도달할 수 없습니다. 본 논문은 두 가지 상호 보완적인 이론적 기여를 제안합니다. 첫째, 형제 행동 분기 간에 값 정보를 공유할 수 있는 새로운 다중 중요도 샘플링(MIS) 트리를 제안합니다. 새로운 MIS 트리는 기울기 기반 업데이트와 같은 검색 시간 동안 행동 업데이트를 지원합니다. 둘째, 전이 가능성을 기반으로 온라인 샘플링을 사용하여 값 기울기를 계산하는 새로운 방법론을 제안합니다. MDP에 적용 가능하며, 전파된 신념 트릭을 적용하여 입자 신념을 통해 POMDP로 확장합니다. 기울기 추정기는 효율적인 몬테카를로 샘플링을 사용하여 MIS 트리를 사용하여 실제로 계산됩니다. 이 두 부분은 새로운 계획 알고리즘인 행동 기울기 몬테카를로 트리 검색(AGMCTS)으로 결합됩니다. 시뮬레이션 환경에서 그 적용 가능성과 순전히 샘플링에 의존하는 연속 온라인 POMDP 솔버에 대한 장점을 보여주고 추가적인 의미를 논의합니다.