고차원 연속 행동 공간, 특히 확률적 환경에서의 순차적 의사결정은 상당한 계산상의 어려움을 안고 있다. 본 논문은 기존의 오프라인 강화학습 설정에서 확률적 행동 정책을 통해 수집된 데이터를 기반으로 의사결정 방법을 학습해야 하는 에이전트의 이러한 과제를 다룬다. 본 논문에서는 상태 조건부 벡터 양자화 변분 오토인코더(VQ-VAE)를 통해 시간적으로 확장된 매크로 행동 집합을 학습하여 행동 차원을 효과적으로 줄이는 잠재 매크로 행동 계획자(L-MAP)를 제시한다. L-MAP은 잠재 전이 모델 역할을 하는 (별도의) 학습된 사전 모델을 사용하여 타당한 행동을 효율적으로 샘플링한다. 계획하는 동안 본 접근 방식은 몬테카를로 트리 탐색(MCTS)을 사용하여 환경과 행동 정책 모두의 확률성을 고려한다. 확률적 연속 제어 작업을 포함한 오프라인 강화학습 설정에서 L-MAP은 이산 잠재 행동을 효율적으로 탐색하여 높은 기대 수익을 산출한다. 실험 결과는 L-MAP이 행동 차원이 증가함에도 불구하고 낮은 의사결정 지연 시간을 유지함을 보여준다. 특히, 본질적으로 확률적인 역학을 가진 연속 제어부터 고차원 로봇 손 조작에 이르는 다양한 작업에서 L-MAP은 기존의 모델 기반 방법보다 훨씬 우수한 성능을 보이며 강력한 모델 없는 행위자-비평가 기준과 동등한 수준의 성능을 보여 고차원 행동 공간을 가진 복잡하고 확률적인 환경에서의 계획에서 제안된 접근 방식의 효과를 강조한다.