본 논문은 강화학습에서 보상 함수 설계의 어려움을 해결하기 위해, 오메가 정규 언어를 사용하여 행동을 공식적으로 명세하고 이를 자동으로 보상으로 변환하는 방법을 제시한다. 기존 방법들이 할인된 보상과 에피소드 설정에 의존하는 것과 달리, 본 논문은 무한 지평선, 지속적인 작업에 초점을 맞춰 절대적 생존성 명세를 이용하여 평균 보상 기준과 지속적인 설정(단일, 중단 없는 수명 동안 에이전트가 환경과 상호 작용하는 설정)을 채택한다. 모델-프리 강화학습 프레임워크를 제시하여 절대적 생존성 명세를 평균 보상 목표로 변환하며, 통신 MDP에서 에피소드 재설정 없이 학습을 가능하게 한다. 또한, 주어진 오메가 정규 명세의 만족 확률을 극대화하는 정책들 중 외부 평균 보상 목표를 극대화하기 위한 사전 순위 다목표 최적화를 위한 보상 구조를 제안한다. 알려지지 않은 통신 MDP에서의 수렴을 보장하며, 환경에 대한 완전한 지식 없이도 온-더-플라이 감소를 지원하여 모델-프리 강화학습을 가능하게 한다. 실험 결과는 지속적인 설정에서 평균 보상 접근 방식이 할인 기반 방법보다 우수함을 보여준다.