Balance Reward and Safety Optimization for Safe Reinforcement Learning: A Perspective of Gradient Manipulation
Created by
Haebom
Category
Empty
저자
Shangding Gu, Bilgehan Sel, Yuhao Ding, Lu Wang, Qingwei Lin, Ming Jin, Alois Knoll
개요
본 논문은 강화학습(RL)의 실세계 적용을 위한 안전성 확보에 초점을 맞추고 있습니다. 특히 탐색 과정에서 보상과 안전성 사이의 상충 관계를 해결하는 데 중점을 두고 있습니다. 보상 성능 향상을 위한 정책 조정이 안전성 성능에 악영향을 미칠 수 있다는 점을 고려하여, 기울기 조작 이론을 활용하여 이러한 상충 관계를 해결하는 소프트 스위칭 정책 최적화 방법을 제안합니다. 이 방법에 대한 수렴 분석을 제공하고, 제안된 방법을 바탕으로 안전한 RL 프레임워크를 제시하며, 안전한 RL 알고리즘의 성능을 평가하기 위한 Safety-MuJoCo 벤치마크를 개발했습니다. Safety-MuJoCo 벤치마크와 기존의 Omnisafe 벤치마크에서의 실험 결과를 통해 제안된 알고리즘이 보상과 안전성 최적화의 균형을 맞추는 데 있어 기존 최첨단 기법들을 능가함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
기울기 조작 이론을 활용하여 강화학습에서 보상과 안전성 사이의 상충 관계를 효과적으로 해결하는 새로운 방법 제시.
◦
소프트 스위칭 정책 최적화 방법의 수렴성 분석 제공.
◦
안전한 RL 알고리즘의 성능 평가를 위한 새로운 벤치마크(Safety-MuJoCo) 개발.
◦
제안된 방법이 기존 최첨단 기법보다 보상과 안전성 균형을 더 잘 맞춘다는 것을 실험적으로 입증.