Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models

Created by

Haebom

저자

Alexander W. Goodall, Francesco Belardinelli

💡 개요

본 논문은 강화학습(RL)의 안전성 보장 문제를 해결하기 위해 회복 기반 쉴딩(recovery-based shielding) 프레임워크를 제안합니다. 가우시안 프로세스(GP) 동역학 모델을 활용하여 불확실성을 정량화하고, 안전 제약 위반 가능성을 예측하며, 필요할 때만 안전한 궤적으로 복구하는 백업 정책(shield)을 RL 에이전트와 통합합니다. 이를 통해 알려지지 않고 비선형적인 연속 동적 시스템에서도 증명 가능한 안전 하한을 갖는 안전한 RL을 가능하게 합니다.

🔑 시사점 및 한계

•

안전이 중요한 응용 분야에서 강화학습의 안전성 문제를 해결할 수 있는 증명 가능한 안전 하한을 가진 프레임워크를 제시합니다.

•

가우시안 프로세스의 불확실성 정량화 능력을 활용하여 동적으로 안전한 궤적으로 복구함으로써, 학습 과정에서의 안전성을 확보하고 정책 최적화를 용이하게 합니다.

•

실험적으로 다양한 연속 제어 환경에서 뛰어난 성능과 엄격한 안전 규정 준수를 보여주었습니다.

•

향후 과제로는 복잡하고 고차원적인 시스템에서의 확장성 및 쉴딩 메커니즘의 계산 비용 최적화 등이 있을 수 있습니다.

PDF 보기

Made with Slashpage