본 논문은 고정된 환경 상호작용 데이터셋을 사용하여 작업을 최적으로 해결하는 방법을 학습하는 오프라인 강화학습(RL)에 대해 다룹니다. 기존 오프라인 RL 알고리즘들은 온라인 학습용 오프폴리시 알고리즘을 수정하여 개별 데이터셋에서 좋은 성능을 달성하지만, 다른 작업이나 다양한 품질의 데이터셋에 적응하기 위해서는 하이퍼파라미터 조정이 필요하다는 한계를 가지고 있습니다. 본 논문에서는 행동 개선을 위한 순수 오프폴리시 RL 에이전트와 데이터에 가깝게 유지하기 위한 행동 복제(BC) 에이전트의 동작을 동적으로 결합하는 정책 전환 기법을 제시합니다. RL 모델에 의해 정량화된 인식적 불확실성과 데이터셋에서 추출된 우연적 불확실성 측정값을 결합하여 이를 달성합니다. 실험적으로 제시된 정책 전환 기법이 개별 알고리즘뿐만 아니라 최첨단 방법들과 경쟁할 수 있음을 보여줍니다. 또한, 인식적 불확실성을 이용한 정책 전환은 오프라인에서 온라인 미세 조정으로 자연스럽게 확장되어 추가적인 수정이나 하이퍼파라미터 미세 조정 없이도 온라인 데이터에 빠르고 안전하게 적응할 수 있도록 합니다.