본 논문은 적응형 교통 신호 제어(ATSC)에서 실시간 의사결정의 복잡성을 해결하기 위해 병렬 하이브리드 액션 공간 강화 학습 모델(PH-DDPG)을 제시합니다. 기존의 2단계 모델과 달리, 신호 위상과 지속 시간을 동시에 최적화하여 동적이고 불확실한 교통 상황에 대한 적응력을 높였습니다. 특히, 위상 선택과 지속 시간 매개변수를 동시에 출력하는 병렬 하이브리드 액션 공간을 사용하여 통합적인 매개변수 최적화를 통해 동적 교통 상황에 대한 적응력을 향상시켰습니다. 또한, 임의 액션 매개변수 마스크를 사용한 ablation study를 통해 모델의 강건성과 효율성을 검증했습니다.