복잡한 작업을 위한 다중 에이전트 강화 학습(MARL)에서 보상 구성은 여전히 중요한 과제입니다. 기존 접근 방식은 최적의 솔루션을 찾지 못하거나 이러한 작업을 효율적으로 처리할 수 없습니다. 본 논문에서는 HyperLTL로 표현된 하이퍼 속성에 대한 제어 정책을 학습하는 사양 기반 강화 학습 프레임워크인 HYPRL을 제안합니다. 하이퍼 속성은 에이전트 간의 실행 추적 집합에 대한 목표와 제약 조건을 지정하는 강력한 형식입니다. HyperLTL 공식 φ의 만족도를 극대화하는 정책을 학습하기 위해 Skolemization을 적용하여 한정사 교대를 관리하고 알려지지 않은 전환이 있는 Markov 의사 결정 프로세스의 실행 추적에 대한 보상을 구성하는 정량적 강건성 함수를 정의합니다. 그런 다음 적절한 RL 알고리즘을 사용하여 집합적으로 예상 보상을 극대화하고 결과적으로 φ의 만족 확률을 높이는 정책을 학습합니다. 안전 인식 계획, 심해 보물 및 Post Correspondence Problem을 포함한 다양한 벤치마크에서 HYPRL을 평가합니다. 또한 사양 기반 기준과 비교하여 HYPRL의 효과와 효율성을 보여줍니다.