본 논문은 부분적으로 관측 가능한 마르코프 의사결정 과정(POMDP)에서 큰 관측 공간을 가진 환경 하에서 강화 학습(RL)의 중추적인 문제인 오프-폴리시 평가(OPE)를 연구합니다. Uehara et al. (2023a)와 Zhang & Jiang (2024)의 최근 연구는 모델 없는 프레임워크를 개발하고 다항식 샘플 복잡도를 가진 정확한 OPE를 가능하게 하는 중요한 적용 범위 가정(믿음과 결과 적용 범위)을 확인했지만, 관측 가능한 전체 이력에 의존하는 더 일반적인 목표 정책을 처리하는 것은 여전히 미해결 문제였습니다. 본 연구에서는 여러 설정에서 이력 의존 정책의 모델 없는 OPE에 대한 정보 이론적 어려움을 증명하는데, 이는 행동 정책(메모리 없음 대 이력 의존) 및/또는 POMDP의 상태 공개 속성(단일 단계 대 다단계 공개)에 부과된 추가 가정으로 특징지어집니다. 또한, 놀랍게도 알고리즘의 단순성에도 불구하고 분석이 문헌에서 빠져 있었던 자연스러운 모델 기반 알고리즘을 통해 일부 어려움을 해결할 수 있음을 보여주어 POMDP에서 모델 없는 OPE와 모델 기반 OPE 간의 증명 가능한 분리를 보여줍니다.