본 논문은 강화학습 에이전트를 위한 범용 정책 래퍼를 제시하여 목표 달성을 공식적으로 보장합니다. 기존 강화학습 알고리즘은 성능이 뛰어나지만 엄격한 안전성 보장이 부족한 것과 달리, 본 래퍼는 고성능 기본 정책(기존 RL 방법에서 도출)과 알려진 수렴 특성을 가진 대체 정책 간을 선택적으로 전환합니다. 기본 정책의 가치 함수가 이 전환 과정을 감독하여 시스템이 안정적인 경로를 유지하도록 대체 정책이 기본 정책을 덮어써야 하는 시점을 결정합니다. 분석 결과, 본 래퍼는 대체 정책의 목표 달성 보장을 계승하면서 기본 정책의 성능을 유지하거나 개선하는 것으로 나타났습니다. 특히, 추가적인 시스템 지식이나 온라인 제약 최적화 없이 작동하므로 다양한 강화학습 아키텍처와 작업에 쉽게 배포할 수 있습니다.