Recursive Entropic Risk Optimization in Discounted MDPs: Sample Complexity Bounds with a Generative Model

작성자

Haebom

카테고리

Empty

저자

Oliver Mortensen, Mohammad Sadegh Talebi

💡 개요

본 논문은 생성 모델이 주어진 유한 할인 MDP 환경에서 재귀적 엔트로피 위험 측정(ERM)을 따르는 위험 민감 강화학습 문제를 다룹니다. 위험 매개변수 $\beta$를 통해 에이전트의 위험 선호도를 조절하며, 특히 ERM에 대한 가치 학습 및 정책 학습의 표본 복잡도에 대한 PAC(Probably Approximately Correct) 유형의 하한 및 상한을 제시합니다. 제안된 모델 기반 알고리즘인 MB-RS-QVI는 위험 회피 및 위험 추구 시나리오 모두에서 엄격한 표본 복잡도 보장을 제공합니다.

🔑 시사점 및 한계

•

재귀적 엔트로피 위험 측정(ERM)을 사용하는 위험 민감 강화학습에서 최초로 엄격한 표본 복잡도 보장을 제공합니다.

•

위험 회피 및 위험 추구 시나리오 모두에서 표본 복잡도가 위험 매개변수 $|\beta|$와 할인율 $(1-\gamma)$에 따라 지수적으로 증가하며, 이는 최악의 경우 피할 수 없음을 보입니다.

•

제시된 표본 복잡도 하한 및 상한은 상태 및 행동 공간의 크기($S, A$)에 대해 타이트합니다.

•

위험 매개변수 $|\beta|/(1-\gamma)$의 지수적 의존성은 계산 비용 증가로 이어질 수 있으며, 이는 실제 적용 시 고려해야 할 한계입니다.

PDF 보기

Made with Slashpage