본 논문은 오프라인 모델 기반 강화학습(MBRL)에서 모델 불확실성을 다루기 위해 베이즈 적응 마르코프 결정 과정(BAMDP) 프레임워크를 제안합니다. 기존 MBRL 방법들이 오프라인 데이터셋에서 동일하게 동작하는 다양한 MDP들을 구분하지 못하는 한계를 극복하기 위해, 연속적인 상태 및 행동 공간에서 확률적 전이를 갖는 BAMDP를 해결할 수 있는 새로운 베이즈 적응 몬테카를로 계획 알고리즘을 제시합니다. 이 알고리즘은 몬테카를로 트리 탐색(MCTS) 기반이며, 정책 반복에서 정책 개선 연산자로 통합되어 "RL + Search" 프레임워크를 구성합니다. 제안된 알고리즘은 12개의 D4RL MuJoCo 작업과 3개의 토카막 제어 시뮬레이터의 목표 추적 작업에서 최첨단 오프라인 RL 방법들을 능가하는 성능을 보입니다.