강화 학습은 시간적, 조건적, 안전 관련 목표를 표현하는 데 한계가 있는 스칼라 보상에 의존하며, 보상 해킹으로 이어질 수 있다. $\omega$-정규 목표를 통해 표현되는 시간적 논리는 풍부한 행동 속성을 정확하게 지정하여 이러한 문제를 해결한다. 그러나 단일 스칼라(보상 또는 만족 확률)로 성능을 측정하는 것은 허용 가능한 수준의 위험이 있는 상황에서 발생하는 안전-성능 간의 상충 관계를 가린다. 이 논문에서는 $\omega$-정규 목표와 명시적 제약을 결합하여 두 가지 제한 사항을 동시에 해결하여 안전 요구 사항과 최적화 목표를 개별적으로 처리할 수 있도록 한다. 선형 프로그래밍 기반의 모델 기반 강화 학습 알고리즘을 개발하여, $\omega$-정규 목표를 만족시킬 확률을 최대화하면서 지정된 임계값 내에서 $\omega$-정규 제약을 준수하는 정책을 생성한다. 또한, 최적성을 유지하는 보장이 있는 제약된 극한 평균 문제로의 변환을 설정한다.