Sign In

Guardian: Decoupling Exploration from Safety in Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Kaitong Cai, Jusheng Zhang, Jing Yang, Keze Wang

개요

Hybrid offline-online 강화 학습(O2O RL)은 샘플 효율성과 견고한 탐색을 약속하지만, 오프라인 및 온라인 데이터 간의 분포 이동으로 인해 불안정성을 겪습니다. 본 논문에서는 RLPD-GX를 소개하며, 이는 정책 최적화와 안전성 강제를 분리합니다. 즉, 보상을 추구하는 학습자는 자유롭게 탐색하고, 투영 기반 보호자는 규칙 일관성 있는 실행과 안전한 가치 백업을 보장합니다. 이 설계를 통해 보수적인 정책으로 붕괴되지 않으면서 온라인 상호 작용의 탐구적 가치를 보존합니다. 또한, 훈련을 안정화하기 위해 시간적 지평을 점진적으로 확장하고 오프라인-온라인 데이터 혼합을 조절하는 동적 커리큘럼을 제안합니다. 우리는 보호된 벨만 연산자의 축소 성질을 통해 수렴을 증명하고, Atari-100k에서 3.02의 정규화된 평균 점수(이전 하이브리드 방법보다 +45% 향상)를 달성하여 더 강력한 안전성과 안정성을 보이는 최첨단 성능을 경험적으로 보여줍니다. Atari 외에도 안전에 중요한 장기적 과제에서 일관된 이득을 보여주며, 이는 설계의 일반성을 강조합니다. 광범위하고 포괄적인 결과는 분리된 안전성 강제가 견고한 O2O RL을 위한 간단하면서도 원칙적인 경로임을 강조하며, 강화 학습에서 탐험과 안전성을 조화시키는 더 넓은 패러다임을 제시합니다.

시사점, 한계점

RLPD-GX는 정책 최적화와 안전성 강제를 분리하여 오프라인-온라인 강화 학습의 안정성을 향상시킵니다.
동적 커리큘럼을 통해 훈련을 안정화하고 성능을 향상시킵니다.
Atari-100k에서 기존 하이브리드 방법보다 뛰어난 성능을 보이며 안전성과 안정성이 개선되었습니다.
안전에 중요한 장기적인 과제에서도 일관된 이득을 얻었습니다.
분리된 안전성 강제가 견고한 O2O RL을 위한 유망한 접근 방식임을 보여줍니다.
논문에서 구체적인 한계점은 명시되지 않았습니다.
👍