강화 학습에서 효율적인 에이전트 훈련을 위해 정보성 있고 밀집된 보상 함수를 지정하는 것은 중요한 과제입니다. 본 연구에서는 유한 궤적에 대한 정량적 선형 시간 논리($\text{LTL}_f[\mathcal{F}]$)의 표현력을 활용하여 런타임에서 관찰 가능한 상태 궤적에 대한 밀집된 보상 스트림을 생성하는 보상 모니터를 합성합니다. 훈련 동안 미묘한 피드백을 제공함으로써, 이러한 모니터는 에이전트가 최적의 행동을 하도록 안내하고, 현재 문헌을 지배하는 부울 의미론 하에서 발생하는, 장기간 의사 결정 하에서 희소 보상이라는 잘 알려진 문제를 완화하는 데 도움이 됩니다. 우리의 프레임워크는 알고리즘에 구애받지 않으며 상태 라벨링 함수에만 의존하며, 비 마르코프 특성을 자연스럽게 수용합니다. 실험 결과는 우리의 정량적 모니터가 작업 완료의 정량적 측정을 최대화하고 수렴 시간을 줄이는 데 있어서 부울 모니터를 일관되게 포함하고, 환경에 따라 성능이 더 뛰어남을 보여줍니다.