Sign In

Statistical Tractability of Off-policy Evaluation of History-dependent Policies in POMDPs

Created by
  • Haebom
Category
Empty

저자

Yuheng Zhang, Nan Jiang

개요

본 논문은 부분적으로 관측 가능한 마르코프 의사결정 과정(POMDP)에서 큰 관측 공간을 가진 환경 하에서 강화 학습(RL)의 중추적인 문제인 오프-폴리시 평가(OPE)를 연구합니다. Uehara et al. (2023a)와 Zhang & Jiang (2024)의 최근 연구는 모델 없는 프레임워크를 개발하고 다항식 샘플 복잡도를 가진 정확한 OPE를 가능하게 하는 중요한 적용 범위 가정(믿음과 결과 적용 범위)을 확인했지만, 관측 가능한 전체 이력에 의존하는 더 일반적인 목표 정책을 처리하는 것은 여전히 미해결 문제였습니다. 본 연구에서는 여러 설정에서 이력 의존 정책의 모델 없는 OPE에 대한 정보 이론적 어려움을 증명하는데, 이는 행동 정책(메모리 없음 대 이력 의존) 및/또는 POMDP의 상태 공개 속성(단일 단계 대 다단계 공개)에 부과된 추가 가정으로 특징지어집니다. 또한, 놀랍게도 알고리즘의 단순성에도 불구하고 분석이 문헌에서 빠져 있었던 자연스러운 모델 기반 알고리즘을 통해 일부 어려움을 해결할 수 있음을 보여주어 POMDP에서 모델 없는 OPE와 모델 기반 OPE 간의 증명 가능한 분리를 보여줍니다.

시사점, 한계점

시사점: POMDP에서 이력 의존 정책의 모델 없는 OPE의 정보 이론적 어려움을 밝힘으로써 모델 기반 접근 방식의 중요성을 강조합니다. 모델 기반 알고리즘의 효율성을 증명하여 모델 없는 방법과의 차이를 보여줍니다.
한계점: 특정 가정(행동 정책의 종류, 상태 공개 속성) 하에서의 어려움 증명에 국한되어 있습니다. 더 일반적인 상황에서의 모델 없는 OPE의 가능성과 한계에 대한 추가 연구가 필요합니다. 제안된 모델 기반 알고리즘의 효율성은 특정 가정 하에서만 증명되었으며, 더 광범위한 조건에서의 성능 분석이 필요합니다.
👍