본 논문은 도시 교통 제어(TSC)를 위한 효율적인 오프라인 다중 에이전트 강화 학습(MARL) 프레임워크인 OffLight를 제안합니다. 기존의 온라인 MARL은 환경과의 상호작용이 많이 필요하지만, OffLight는 기존의 교통 데이터를 활용하여 이러한 문제를 해결합니다. 특히, 실제 데이터셋의 이질적인 행동 정책과 혼합된 데이터 품질 문제를 해결하기 위해 중요도 샘플링(IS), 수익 기반 우선 샘플링(RBPS), 그리고 가우시안 혼합 변분 그래프 오토인코더(GMM-VGAE)를 활용합니다. 실제 도시 교통 시나리오에서의 실험 결과, OffLight는 기존 방법보다 평균 여행 시간을 최대 7.8% 감소시키고, 대기열 길이를 11.2% 감소시키는 성능을 보였습니다.