Sign In

Probabilistic Shielding for Safe Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Edwin Hamel-De le Court, Francesco Belardinelli, Alex W. Goodall

개요

본 논문은 강화학습(Reinforcement Learning, RL) 에이전트가 보상을 극대화하는 동시에 안전하게 행동해야 하는 실제 시나리오에 초점을 맞춥니다. 특히, 주어진 안전 제약 조건을 만족하는 모든 정책 중 최적 정책을 학습하는 안전 강화학습(Safe RL)에 대해 다룹니다. 기존의 안전 보장 접근 방식은 선형 계획법에 기반하여 확장성이 제한적이라는 문제점이 있습니다. 본 논문에서는 마르코프 결정 과정(Markov Decision Process, MDP)의 안전 역학이 알려져 있고, 안전성이 할인되지 않은 확률적 회피 속성으로 정의될 때, 엄격한 공식적 안전 보장을 제공하는 새로운 확장 가능한 방법을 제시합니다. 이 방법은 MDP의 상태 증강과 에이전트가 사용할 수 있는 행동을 제한하는 보호막(shield) 설계에 기반합니다. 훈련 및 테스트 시 안전을 보장하는 엄격한 공식적 안전 보장을 제공하며, 실험적 평가를 통해 실용성을 입증합니다.

시사점, 한계점

시사점: MDP의 안전 역학이 알려진 경우, 할인되지 않은 확률적 회피 속성을 가진 안전 강화학습 문제에 대해 엄격한 안전 보장을 제공하는 확장 가능한 새로운 방법을 제시합니다. 실험을 통해 실용성을 검증하였습니다.
한계점: 안전 역학이 알려져 있다는 가정 하에 이루어진 연구이므로, 실제 세계의 복잡한 시스템에 적용하기 위해서는 안전 역학을 정확하게 모델링하는 추가적인 연구가 필요합니다. 안전성이 할인되지 않은 확률적 회피 속성으로 제한되어 있습니다. 다른 유형의 안전성 제약 조건에 대한 확장성이 검토되어야 합니다.
👍