Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Sample Complexity of Distributionally Robust Off-Dynamics Reinforcement Learning with Online Interaction

Created by
  • Haebom
Category
Empty

저자

Yiting He, Zhishuai Liu, Weixin Wang, Pan Xu

개요

본 논문은 훈련 환경과 배포 환경의 동역학이 다른 오프 다이내믹스 강화 학습(RL) 문제를 다룬다. 이는 전이 동역학의 불확실성을 고려하는 견고한 마르코프 결정 과정(RMDP)으로 공식화된다. 기존 연구는 생성 모델 접근 또는 광범위한 데이터셋을 가정하여 탐험의 어려움을 간과했다. 본 연구는 에이전트가 훈련 환경과의 온라인 상호작용에 제한된 현실적인 설정을 연구하며, 훈련 및 배포 동역학 간의 불일치를 측정하는 새로운 지표인 supremal visitation ratio를 도입한다. 이 비율이 무한대일 경우 온라인 학습이 기하급수적으로 어려워짐을 보이고, f-divergence 기반 전이 불확실성을 가진 온라인 RMDP에서 서브 리니어 후회를 달성하는 최초의 계산 효율적인 알고리즘을 제안한다. 또한, 후회 하한을 설정하여 알고리즘이 supremal visitation ratio와 상호 작용 에피소드 수 모두에 대해 최적의 의존성을 달성함을 입증한다. 마지막으로, 수치 실험을 통해 이론적 결과를 검증한다.

시사점, 한계점

시사점:
오프 다이내믹스 RL 문제를 현실적인 온라인 환경에서 해결하는 새로운 알고리즘 제안.
supremal visitation ratio라는 새로운 지표를 통해 탐험의 어려움을 정량화.
제안된 알고리즘의 최적 후회 경계 증명.
이론적 결과에 대한 수치적 검증.
한계점:
$f$-divergence 기반 전이 불확실성에 국한됨.
온라인 상호작용 환경에 초점을 맞추어, 다른 환경에서의 성능에 대한 추가적인 연구가 필요할 수 있음.
👍