本論文は、自律走行自動車の倫理的な意思決定のための階層的安全強化学習(Safe RL)フレームワークを提示する。このフレームワークは、衝突確率とダメージの重大度を組み合わせた倫理的リスクコストを使用して高レベルの動作目標を生成するSafe RLエージェントを中心に設計されています。珍しいが重要な高リスクイベントの学習を強化するために、動的優先経験再生(Prioritized Experience Replay)メカニズムを活用し、多項式経路計画とPID、Stanleyコントローラを介して滑らかで実行可能な軌跡を生成します。実際の世界交通データセットを使用して訓練と検証を行い、従来の方法よりも倫理的リスクの低減と走行性能の維持という点で優れた性能を示した。特に、現実世界の人間混合交通シナリオで評価された最初の自律走行自動車倫理的意思決定に関するSafe RL研究であることを強調する。