본 논문은 HyperLTL 공식으로 정의된 복잡한 작업에 대한 제어 정책 학습 문제를 다룹니다. HyperLTL은 다중 에이전트 시스템 및 다중 실행 추적을 필요로 하는 요구사항(예: 프라이버시 및 공정성)을 공식적으로 명시하는 데 유용합니다. 알려지지 않은 전이 확률을 가진 Markov Decision Process (M)와 HyperLTL 공식 φ가 주어졌을 때, 본 논문은 먼저 Skolemization을 사용하여 φ의 양화자 교체를 처리합니다. HyperLTL에 대한 정량적 강건성 함수를 도입하여 φ에 대한 M의 유한 추적의 보상을 정의합니다. 마지막으로 적절한 강화 학습 알고리즘을 사용하여 (1) φ의 추적 양화자당 정책과 (2) 기대 보상 및 φ의 만족 확률을 극대화하는 M의 전이 확률 분포를 학습합니다. 안전을 유지하는 다중 에이전트 경로 계획, 자원 할당의 공정성, Post-Correspondence Problem (PCP)에 대한 사례 연구를 제시합니다.