본 논문은 신호등 교차로에서의 자율주행 차량의 종방향 제어 전략을 제시합니다. 거리 간격 기반 효율성 보상, 황색 신호등 상황에서의 의사결정 기준, 비대칭 가속/감속 반응 등을 포함하는 종합적인 보상 함수를 도입하여 Deep Deterministic Policy Gradient (DDPG)와 Soft-Actor Critic (SAC) 두 가지 강화학습 알고리즘에 적용했습니다. 실제 선행 차량 궤적과 Ornstein-Uhlenbeck (OU) 프로세스를 이용하여 생성된 시뮬레이션 궤적을 결합하여 모델을 학습시켰으며, 누적분포함수(CDF)를 이용하여 성능을 평가하고 실제 궤적 데이터와 비교했습니다. 결과적으로 제안된 모델은 안전성을 저해하지 않으면서 인간 운전 차량보다 낮은 거리 간격(즉, 높은 효율성)과 저크를 유지하는 것을 보여주었습니다. 또한 다양한 안전 중요 상황에서 모델의 성능을 평가하여 강건성을 확인했습니다.