본 논문은 불확실하고 역동적인 환경에서 강화학습의 안전성을 목표로, 확률적 임계값에 대한 제약 조건이 있는 제약 마르코프 의사결정 과정(CMDPs)을 연구합니다. 불확실하고 역동적인 환경과의 상호작용으로부터 표본 추출하는 Growing-Window 추정기를 활용하여 임계값을 추정하고, 이를 바탕으로 확률적 비관적-낙관적 임계값 설정(SPOT)이라는 새로운 모델 기반의 원-이중 알고리즘을 여러 제약 조건에 대해 설계합니다. SPOT은 비관적 및 낙관적 임계값 설정 모두에서 강화 학습을 가능하게 합니다. 본 논문은 제시된 알고리즘이 하위 선형 후회 및 제약 위반을 달성함을 증명합니다. 즉, T개의 에피소드에 걸쳐 $\tilde{\mathcal{O}}(\sqrt{T})$의 보상 후회를 달성하면서 $\tilde{\mathcal{O}}(\sqrt{T})$의 제약 위반을 허용합니다. 이론적 보장은 제시된 알고리즘이 고정적이고 명확한 임계값에 의존하는 접근 방식과 비교할 만한 성능을 달성함을 보여줍니다. 본 논문에서 제시된 SPOT은 임계값조차 알 수 없는 불확실한 환경에서 이론적으로 보장된 성능을 달성하는 최초의 강화 학습 알고리즘입니다.