SB-TRPO: Towards Safe Reinforcement Learning with Hard Constraints

작성자

Haebom

카테고리

Empty

저자

Dominik Wagner, Ankit Kanwar, Luke Ong

💡 개요

안전이 중요한 영역에서 강화학습(RL) 에이전트는 제로 코스트 안전 제약을 만족시키면서도 작업을 수행해야 하는 과제가 있습니다. 기존의 모델 프리(model-free) 방식은 안전 위반을 거의 제로에 가깝게 달성하지 못하거나 지나치게 보수적이 되는 경우가 많았습니다. 본 논문은 비용 감소와 보상 개선을 동적으로 균형 맞추는, 엄격한 제약 조건이 있는 RL을 위한 원칙적인 알고리즘인 Safety-Biased Trust Region Policy Optimisation (SB-TRPO)을 소개합니다.

🔑 시사점 및 한계

•

SB-TRPO는 각 단계에서 보상 및 비용 자연 정책 기울기(natural policy gradients)의 동적 볼록 조합(dynamic convex combination)을 통해 업데이트하여, 최적의 비용 감소 비율을 보장하면서도 남은 업데이트 용량을 보상 개선에 사용합니다.

•

제안된 방법은 기울기가 적절하게 정렬될 때마다 보상을 개선하면서도 안전에 대한 국소적 진보에 대한 공식적인 보증을 제공합니다.

•

표준 및 까다로운 Safety Gymnasium 태스크에서의 실험 결과, SB-TRPO는 엄격한 제약 조건 하에서 안전과 작업 성능의 최상의 균형을 일관되게 달성함이 입증되었습니다.

PDF 보기

Made with Slashpage