본 논문은 안전 강화 학습(Safe RL)에서 안전 제약 조건을 준수하면서 성능을 극대화하는 새로운 방법인 안전 조절 정책 최적화(SMPO)를 제안합니다. SMPO는 표준 정책 최적화 프레임워크 내에서 안전 조절 보상을 통해 안전한 정책 함수 학습을 가능하게 합니다. 안전 위반 비용을 표준 보상과 병렬적인 환경 피드백으로 고려하고, 예상되는 누적 비용을 추정하는 안전 평가자(safety critic)로 Q-cost 함수를 도입합니다. 안전 평가자의 추정치를 기반으로 안전 제한을 보장하면서 예상 보상을 극대화하도록 설계된 비용 인식 가중 함수를 사용하여 보상을 조절합니다. 정책 함수와 안전 평가자는 환경과의 온라인 상호 작용 중에 경사 하강법을 통해 동시에 학습됩니다. 여러 RL 환경을 사용한 실험 결과, 제안된 방법이 기존 및 최첨단 비교 방법보다 안전 RL 성능 측면에서 우수함을 보여줍니다.