본 논문은 실제 환경의 불확실성을 고려한 강화학습 문제를 다룹니다. 실제 모델과 시뮬레이터 간의 불일치가 존재하는 상황에서, 제약 조건을 만족하면서 누적 보상을 극대화하는 정책을 학습하는 문제, 즉 강건 제약 마르코프 결정 문제(RCMDP)를 다룹니다. 기존의 프라이멀-듀얼 방법이나 강건 값 반복 기법은 RCMDP에 적용하기 어렵다는 점을 지적하며, 제약 조건 값 함수를 효과적으로 최소화하고, 제약 조건이 만족되면 강건 보상 값 함수를 최대화하는 새로운 알고리즘을 제안합니다. 이 알고리즘은 $\epsilon$ 이하의 최적성을 가지는 실행 가능한 정책을 $O(\epsilon^{-2})$번의 반복으로 찾는다는 것을 증명합니다. 기존 방법과 비교하여 이진 탐색을 사용하지 않아 계산 시간을 최대 6배까지 단축합니다.