본 논문은 강화학습에서 비마르코프 보상 문제를 해결하기 위한 효과적인 방법으로 제시된 보상 기계(Reward Machines, RMs)의 한계를 극복하기 위해, 퍼스트 오더 로직을 이용한 퍼스트 오더 보상 기계(First-Order Reward Machines, FORM)를 제안합니다. 기존의 RMs는 명제 논리식으로 에지를 표현하여 표현력이 제한적이었지만, FORM은 퍼스트 오더 로직을 사용하여 더욱 간결하고 전이 가능성이 높은 RMs를 구현합니다. 논문에서는 FORM을 학습하는 새로운 방법과, 다수의 에이전트가 공유된 FORM에 대한 정책을 협력적으로 학습하는 다중 에이전트 공식화를 제시합니다. 실험 결과를 통해 FORM이 기존 RMs에 비해 확장성이 뛰어나며, 기존 방법으로는 학습이 어려운 작업에서도 효과적으로 학습될 수 있음을 보여줍니다. 또한 다중 에이전트 학습 프레임워크와 퍼스트 오더 언어가 제공하는 추상화 덕분에 학습 속도와 작업 전이성이 크게 향상됨을 보여줍니다.