자율 주행 분야에서 강화 학습(RL)의 활용이 증가하고 있지만, 기존 RL 기반 자율 주행 방법들은 정책 구조 설계를 간과하는 경향이 있습니다. 단기 제어 명령만 출력하는 정책은 변동적인 주행 동작을 보이고, 장기 주행 목표만 출력하는 정책은 주행 행동과 제어를 통합적으로 최적화하기 어렵습니다. 본 논문에서는 다중 시간 척도 계층적 강화 학습 접근 방식을 제안합니다. 이는 고수준 및 저수준 RL 정책을 통합 학습하여 장기적인 움직임 지침과 단기 제어 명령을 각각 생성합니다. 움직임 지침은 하이브리드 액션을 통해 명시적으로 표현되어 구조화된 도로에서 다중 모드 주행 동작을 포착하고 점진적인 저수준 확장 상태 업데이트를 지원합니다. 또한, 다중 시간 척도 안전 메커니즘을 설계하여 안전성을 보장합니다. 시뮬레이터 및 HighD 데이터셋 기반 고속도로 다중 차선 시나리오 평가 결과, 제안된 방식이 자율 주행 성능을 유의미하게 향상시켜 주행 효율성, 행동 일관성 및 안전성을 효과적으로 증가시킴을 확인했습니다.