본 논문은 다중 에이전트 강화 학습(MARL)을 이용한 적응형 교통 신호 제어(ATSC)에서, 실제 환경의 교차로 관측 분포 차이를 고려하여 개별 교차로의 특성을 반영하면서도 파라미터 공유의 효율성을 유지하는 새로운 방법을 제안합니다. 기존 공유 파라미터 방식의 한계를 지적하고, 네트워크 크기 증가만으로는 일반화 성능 향상에 한계가 있음을 실험적으로 보여줍니다. 이를 해결하기 위해, 중앙 집중식 훈련과 분산 실행(CTDE) 방식의 새로운 MARL 알고리즘인 Hyper-Action Multi-Head Proximal Policy Optimization (HAMH-PPO)를 제안합니다. HAMH-PPO는 공유 PPO 정책 네트워크를 사용하여 비 i.i.d 관측 분포를 가진 교차로에 대해 개인화된 정책을 제공합니다. 중앙 집중식 평가자는 그래프 어텐션 유닛을 사용하여 모든 교차로의 그래프 표현을 계산하고 각 교차로에 대해 여러 출력 헤드를 가진 값 추정치 집합을 출력합니다. 분산 실행 행위자는 지역 관측 이력을 입력으로 받아 행동 분포와 하이퍼-액션을 출력하여 중앙 집중식 평가자로부터 추정된 여러 값의 균형을 맞추고 TSC 정책 업데이트를 안내합니다. 하이퍼-액션과 다중 헤드 값의 조합을 통해 여러 에이전트가 단일 행위자-평가자를 공유하면서 개인화된 정책을 달성할 수 있습니다.