MAESTRO는 협력적 MARL의 설계 병목 현상인 밀집된 보상 함수 제작과 지역 최적화를 피하는 커리큘럼 구성 문제를 해결하기 위해, LLM을 오프라인 훈련 설계자로 활용하는 프레임워크입니다. MAESTRO는 LLM을 사용하여 다양한 교통 시나리오를 생성하는 의미론적 커리큘럼 생성기와, 진화하는 커리큘럼 난이도에 맞춰 실행 가능한 Python 보상 함수를 생성하는 자동화된 보상 합성기를 도입합니다. 이러한 구성 요소는 표준 MARL 백본인 MADDPG를 안내하며, 배포 시 추론 비용을 증가시키지 않습니다. 대규모 교통 신호 제어(항저우, 16개 교차로)에서 MAESTRO를 평가한 결과, LLM 기반 커리큘럼과 보상 형성을 결합하면 성능과 안정성이 향상되었습니다.