모델 기반 강화 학습(MBRL)은 모델 자유 강화 학습(MFRL)에 비해 우수한 샘플 효율성을 보여주지만, 부정확한 모델은 정책 학습 중 편향을 초래하여 잘못된 궤적을 생성할 수 있습니다. 특히 방문 횟수가 적은 영역(불확실한 영역)에서 제한된 다양한 훈련 데이터로 인해 정확한 모델을 얻는 것이 어렵습니다. 기존 접근 방식은 샘플 생성 후 수동적으로 불확실성을 정량화하여 상태 적용 범위를 개선하고 모델 정확도를 향상시킬 수 있는 불확실한 샘플을 적극적으로 수집하지 못합니다. 또한 MBRL은 정확한 다단계 예측을 하는 데 어려움을 겪어 전반적인 성능에 영향을 미칩니다. 본 논문에서는 모델 기반 탐색적 계획을 사용한 불확실성 인식 정책 최적화를 위한 새로운 프레임워크를 제안합니다. 모델 기반 계획 단계에서 불확실성 인식 k-단계 선행 계획 접근 방식을 도입하여 각 단계에서 행동 선택을 안내합니다. 이 과정에는 모델 불확실성과 가치 함수 근사 오류 간의 절충 분석이 포함되어 정책 성능을 효과적으로 향상시킵니다. 정책 최적화 단계에서 불확실성 기반 탐색적 정책을 활용하여 다양한 훈련 샘플을 적극적으로 수집하여 모델 정확도와 RL 에이전트의 전반적인 성능을 향상시킵니다. 본 연구의 접근 방식은 다양한 상태/행동 공간과 보상 구조를 가진 작업에 유연성과 적용 가능성을 제공합니다. 어려운 로봇 조작 작업과 Atari 게임에 대한 실험을 통해 그 효과를 검증하여 상호 작용 횟수를 줄이고 최첨단 방법을 능가하여 성능을 크게 향상시켰습니다.