Cet article présente un cadre hiérarchique d'apprentissage par renforcement sécurisé (Safe RL) pour la prise de décision éthique dans les véhicules autonomes. Ce cadre s'articule autour d'un agent Safe RL qui génère des objectifs d'action de haut niveau en utilisant les coûts du risque éthique, combinant la probabilité d'accident et la gravité des dommages. Il s'appuie sur un mécanisme dynamique de relecture d'expériences priorisées pour améliorer l'apprentissage des événements rares mais critiques à haut risque, et génère des trajectoires fluides et réalisables grâce à la planification polynomiale des trajectoires et aux contrôleurs PID et Stanley. L'apprentissage et la validation à l'aide de données de trafic réelles démontrent des performances supérieures aux méthodes existantes en termes de réduction du risque éthique et de maintien des performances de conduite. Il s'agit notamment de la première étude Safe RL évaluant la prise de décision éthique dans les véhicules autonomes dans un scénario réel de trafic mixte.