Sign In

Online Reinforcement Learning in Non-Stationary Context-Driven Environments

Created by
  • Haebom
Category
Empty

저자

Pouya Hamadanian, Arash Nasr-Esfahany, Malte Schwarzkopf, Siddartha Sen, Mohammad Alizadeh

개요

본 논문은 시간에 따라 변하는 외생적 맥락 과정이 환경 역학에 영향을 미치는 비정상 환경에서의 온라인 강화 학습(RL)을 연구합니다. 온라인 RL은 "파국적 망각"(CF)으로 인해 이러한 환경에서 어려움을 겪습니다. 에이전트는 새로운 경험에 대해 훈련함에 따라 이전 지식을 잊어버리는 경향이 있습니다. 이 문제를 완화하기 위한 이전 접근 방식은 작업 레이블을 가정하거나(실제로는 사용할 수 없는 경우가 많음), 취약한 규제 휴리스틱을 사용하거나, 불안정성과 성능 저하로 고통받는 오프 정책 방법을 사용합니다. 본 논문에서는 현재 경험에 대한 수익을 최적화하는 동시에 이전 경험에 대한 정책 출력을 고정함으로써 CF를 해결하는 온라인 RL 접근 방식인 지역 제약 정책 최적화(LCPO)를 제시합니다. 이러한 고정을 수행하기 위해 LCPO는 현재 맥락 분포 외부에 있는 경험의 샘플을 사용하여 정책 최적화를 지역적으로 제한합니다. Mujoco, 고전적 제어 및 컴퓨터 시스템 환경에서 다양한 합성 및 실제 맥락 추적을 사용하여 LCPO를 평가한 결과, 비정상 환경에서 다양한 기준선보다 우수한 성능을 보이는 동시에 모든 맥락 추적에 대해 오프라인으로 훈련된 "예지력 있는" 에이전트와 동등한 결과를 달성했습니다. LCPO의 소스 코드는 https://github.com/pouyahmdn/LCPO 에서 사용할 수 있습니다.

시사점, 한계점

시사점: 비정상 환경에서의 온라인 강화 학습 문제를 해결하기 위한 효과적인 새로운 방법인 LCPO를 제시합니다. 기존 방법의 한계점인 작업 레이블 의존성, 취약한 규제, 오프 정책 방법의 불안정성을 극복합니다. 다양한 환경에서 기존 방법 대비 우수한 성능을 보이며, 예지력 있는 에이전트와 유사한 성능을 달성합니다. 공개된 소스 코드를 통해 재현성과 확장성을 확보합니다.
한계점: LCPO의 성능이 특정 유형의 비정상성에 얼마나 일반화될 수 있는지에 대한 추가 연구가 필요합니다. 더욱 복잡하고 다양한 비정상 환경에서의 성능 평가가 필요합니다. 지역 제약의 최적 매개변수 설정에 대한 추가적인 연구가 필요할 수 있습니다. 현재 맥락 분포 외부에 있는 경험을 선택하는 방법에 대한 추가적인 연구가 필요할 수 있습니다.
👍