본 논문은 온라인 안전 강화 학습(RL)에서 제약이 있는 마르코프 의사결정 과정(CMDP)으로 모델링된 안전 제약을 만족하면서 보상을 극대화하는 최적 정책을 학습하는 문제를 다룹니다. 기존 방법들은 확률적 제약 하에서 하위선형 후회를 달성하지만, 제약이 알려지지 않고 시간에 따라 변하며 적대적으로 설계될 수 있는 적대적 환경에서는 실패하는 경우가 많습니다. 본 논문에서는 언제든지 적대적 제약이 있는 온라인 CMDP를 해결하는 최초의 알고리즘인 낙관적 미러 강하 프라이멀-듀얼(OMDPD) 알고리즘을 제안합니다. OMDPD는 Slater 조건이나 엄격하게 알려진 안전 정책의 존재에 의존하지 않고 최적의 후회 O(√K)와 강력한 제약 위반 O(√K)를 달성합니다. 또한 보상과 전이의 정확한 추정치에 대한 접근이 이러한 경계를 더욱 개선할 수 있음을 보여줍니다. 본 연구 결과는 적대적 환경에서 안전한 의사결정을 위한 실용적인 보장을 제공합니다.