복잡한 작업을 위한 다중 에이전트 강화 학습(MARL)에서 보상 형성은 여전히 중요한 과제입니다. 기존 접근 방식은 최적의 솔루션을 찾지 못하거나 이러한 작업을 효율적으로 처리하지 못하는 경우가 많습니다. 본 논문에서는 HyperLTL로 표현된 하이퍼 속성을 고려하여 제어 정책을 학습하는 사양 기반 강화 학습 프레임워크인 HYPRL을 제안합니다. 하이퍼 속성은 에이전트 간 실행 추적 집합에 대한 목표 및 제약 조건을 지정하는 강력한 형식입니다. HyperLTL 수식 $\phi$의 만족도를 극대화하는 정책을 학습하기 위해, Skolemization을 적용하여 양화자 교대를 관리하고 알려지지 않은 전이가 있는 Markov 의사 결정 프로세스의 실행 추적에 대한 보상을 형성하기 위해 정량적 강건성 함수를 정의합니다. 그런 다음 적절한 RL 알고리즘을 사용하여 집합적으로 예상 보상을 극대화하고 결과적으로 $\phi$를 만족시킬 확률을 높이는 정책을 학습합니다. 안전 인식 계획, 깊은 바다 보물 및 Post Correspondence Problem을 포함한 다양한 벤치마크에서 HYPRL을 평가하고, 사양 기반 기준과 비교하여 HYPRL의 효과와 효율성을 보여줍니다.