본 논문은 자율주행 자동차의 윤리적인 의사결정을 위한 계층적 안전 강화 학습(Safe RL) 프레임워크를 제시한다. 이 프레임워크는 충돌 확률과 피해 심각도를 결합한 윤리적 위험 비용을 사용하여 고수준의 동작 목표를 생성하는 Safe RL 에이전트를 중심으로 설계되었다. 희귀하지만 중요한 고위험 이벤트에 대한 학습을 강화하기 위해 동적 우선 경험 재생(Prioritized Experience Replay) 메커니즘을 활용하고, 다항식 경로 계획 및 PID, Stanley 제어기를 통해 부드럽고 실행 가능한 궤적을 생성한다. 실제 세계 교통 데이터셋을 사용하여 훈련 및 검증을 수행, 기존 방법보다 윤리적 위험 감소 및 주행 성능 유지 측면에서 우수한 성능을 보였다. 특히, 실제 세계의 인간 혼합 교통 시나리오에서 평가된 최초의 자율주행 자동차 윤리적 의사결정에 대한 Safe RL 연구라는 점을 강조한다.