Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Predictive Safety Shield for Dyna-Q Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Jin Pin, Krasowski Hanna, Vanneaux Elena

개요

강화 학습의 안전성 보장은 실제 세계 적용의 주요 과제이며, 안전 방패는 표준 강화 학습을 확장하여 강력한 안전성 보장을 달성합니다. 기존 안전 방패는 안전한 동작의 무작위 샘플링 또는 고정된 폴백 컨트롤러를 사용하여, 다른 안전한 동작의 미래 성능 영향을 무시합니다. 본 연구에서는 이산 공간에서 모델 기반 강화 학습 에이전트를 위한 예측 안전 방패를 제안합니다. 안전 예측에 기반하여 Q-함수를 국부적으로 업데이트하며, 안전 예측은 환경 모델의 안전한 시뮬레이션에서 비롯됩니다. 이 방패 접근 방식은 강력한 안전성 보장을 유지하면서 성능을 향상시킵니다. 그리드월드 환경에서의 실험을 통해 짧은 예측 지평선도 최적 경로를 식별하기에 충분하다는 것을 입증했습니다. 또한 시뮬레이션과 현실 사이의 분포 변화에 추가 훈련 없이도 강건함을 보였습니다.

시사점, 한계점

시사점:
강화 학습에서 안전성을 보장하면서 성능을 향상시키는 새로운 안전 방패 접근 방식 제안.
모델 기반 강화 학습 에이전트에 적용 가능하며, 안전한 예측을 통해 Q-함수를 업데이트.
짧은 예측 지평선으로도 최적 경로를 식별 가능.
시뮬레이션과 현실 사이의 분포 변화에 강건함.
한계점:
이산 공간의 그리드월드 환경에서만 실험.
다른 환경 및 복잡한 과제에 대한 일반화 가능성 추가 연구 필요.
안전 예측의 정확성에 대한 의존성.
👍