Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Online Reinforcement Learning in Non-Stationary Context-Driven Environments

Created by
  • Haebom

저자

Pouya Hamadanian, Arash Nasr-Esfahany, Malte Schwarzkopf, Siddartha Sen, Mohammad Alizadeh

개요

본 논문은 시간에 따라 변하는 외생적 맥락 과정이 환경 역학에 영향을 미치는 비정상적 환경에서의 온라인 강화 학습(RL)을 연구합니다. 온라인 RL은 "파국적 망각"(CF)으로 인해 이러한 환경에서 어려움을 겪습니다. 에이전트는 새로운 경험에 대해 학습함에 따라 이전 지식을 잊어버리는 경향이 있습니다. 이 문제를 완화하기 위한 이전의 접근 방식은 작업 레이블(실제로는 사용할 수 없는 경우가 많음)을 가정하거나, 취약한 규제 휴리스틱을 사용하거나, 불안정성과 성능 저하로 어려움을 겪는 오프-폴리시 방법을 사용합니다. 본 논문에서는 현재 경험에 대한 수익을 최적화하는 동시에 과거 경험에 대한 정책 출력을 고정함으로써 CF를 해결하는 온라인 RL 접근 방식인 Locally Constrained Policy Optimization (LCPO)를 제시합니다. 이 고정을 수행하기 위해 LCPO는 현재 맥락 분포 외부에 있는 경험의 샘플을 사용하여 정책 최적화를 지역적으로 제한합니다. Mujoco, 고전적인 제어 및 컴퓨터 시스템 환경에서 다양한 합성 및 실제 맥락 추적을 사용하여 LCPO를 평가하고, 비정상적 설정에서 다양한 기준보다 성능이 우수하며 모든 맥락 추적에 걸쳐 오프라인으로 훈련된 "예지력 있는" 에이전트와 동등한 결과를 달성함을 발견했습니다. LCPO의 소스 코드는 https://github.com/pouyahmdn/LCPO 에서 사용할 수 있습니다.

시사점, 한계점

시사점: 비정상적 환경에서의 온라인 강화학습 문제를 해결하기 위한 효과적인 새로운 방법인 LCPO를 제시. 기존 방법들의 한계점(작업 레이블 필요, 취약한 규제, 오프-폴리시 방법의 불안정성)을 극복. 다양한 환경에서 기존 방법들보다 우수한 성능을 보임. 오프라인으로 사전 훈련된 에이전트와 유사한 성능 달성. 공개된 소스 코드를 통해 재현성 및 확장성 확보.
한계점: 현재 제시된 맥락 분포 밖의 경험을 사용하는 방식의 일반화 성능에 대한 추가적인 연구 필요. 다양한 유형의 비정상성에 대한 견고성 검증 필요. 고차원 맥락 공간에서의 효율성 평가 필요. 실제 세계 적용에 대한 추가적인 실험 필요.
👍