본 논문은 강화 학습에서 에이전트 훈련의 효율성에 직접적인 영향을 미치는 정보적이고 밀집된 보상 함수를 지정하는 문제를 해결하기 위해, 유한 트레이스에 대한 정량적 선형 시간 논리($\text{LTL}_f[\mathcal{F}]$)의 표현력을 활용하여 런타임에서 관찰 가능한 상태 궤적에 대해 밀집된 보상 스트림을 생성하는 보상 모니터를 합성한다. 이러한 모니터는 훈련 중에 미묘한 피드백을 제공하여 에이전트를 최적의 행동으로 안내하고, 현재 문헌에서 지배적인 부울 의미론 하에서 발생하는, 장기간 의사 결정 시 희소 보상의 잘 알려진 문제를 완화하는 데 도움이 된다. 프레임워크는 알고리즘에 구애받지 않으며, 상태 라벨링 함수에만 의존하며, 비 마르코프 속성을 자연스럽게 수용한다. 실험 결과에 따르면 정량적 모니터는 작업 완료의 정량적 측정을 최대화하고 수렴 시간을 줄이는 데 있어 일관되게 부울 모니터를 포함하며, 환경에 따라 성능이 더 우수하다.