본 논문은 대규모 교통 신호 제어(TSC)를 위한 계층적 강화 학습 프레임워크인 HiLight를 제안한다. 기존의 중앙 집중식 및 분산식 강화 학습 방법의 한계를 극복하기 위해, HiLight는 Transformer-LSTM 아키텍처를 사용하여 교통 네트워크를 하위 영역으로 분할하고 하위 목표를 생성하는 상위 수준의 메타 정책과, 전역 인식을 통해 개별 교차로를 제어하는 하위 수준의 하위 정책으로 구성된다. 메타 정책과 하위 정책 간의 조정을 향상시키기 위해, 적대적 훈련 메커니즘을 도입하여 메타 정책이 도전적이면서도 유익한 하위 목표를 생성하고, 하위 정책이 이러한 목표를 뛰어넘도록 학습한다. 합성 및 실제 벤치마크뿐만 아니라 다양한 교통 조건(피크 시간 변화, 악천후, 휴일 급증 등)을 포함하는 대규모 맨해튼 네트워크에서 HiLight를 평가하여, 대규모 시나리오에서 상당한 이점을 보이고 다양한 크기의 표준 벤치마크에서 경쟁력을 유지함을 보여준다.