강화 학습 에이전트에게 환경의 보상 구조를 알려주는 Reward Machines(RMs)의 한계를 극복하기 위해, 본 논문에서는 세 가지 RM 일반화 기법과 새로운 학습 알고리즘을 제안한다. 특히, 순서가 없는 하위 작업이 많은 장기적인 문제에서 RM의 학습 효율성을 개선하는 데 초점을 맞춘다. 제안된 기법들은 Numeric RMs, Agenda RMs, Coupled RMs이며, Coupled RMs을 활용하는 새로운 구성적 학습 알고리즘인 CoRM (Q-learning with coupled RMs)을 소개한다. 실험 결과, CoRM은 순서가 없는 하위 작업이 있는 장기적인 문제에서 기존 RM 알고리즘보다 더 나은 성능을 보인다.