본 논문은 강화학습(Reinforcement Learning, RL) 에이전트가 보상을 극대화하는 동시에 안전하게 행동해야 하는 실제 시나리오에 초점을 맞춥니다. 특히, 주어진 안전 제약 조건을 만족하는 모든 정책 중 최적 정책을 학습하는 안전 강화학습(Safe RL)에 대해 다룹니다. 기존의 안전 보장 접근 방식은 선형 계획법에 기반하여 확장성이 제한적이라는 문제점이 있습니다. 본 논문에서는 마르코프 결정 과정(Markov Decision Process, MDP)의 안전 역학이 알려져 있고, 안전성이 할인되지 않은 확률적 회피 속성으로 정의될 때, 엄격한 공식적 안전 보장을 제공하는 새로운 확장 가능한 방법을 제시합니다. 이 방법은 MDP의 상태 증강과 에이전트가 사용할 수 있는 행동을 제한하는 보호막(shield) 설계에 기반합니다. 훈련 및 테스트 시 안전을 보장하는 엄격한 공식적 안전 보장을 제공하며, 실험적 평가를 통해 실용성을 입증합니다.