본 논문은 함수 근사가 필요한 큰 상태 공간을 가진 환경에서 강화 학습(RL)을 연구합니다. 기존 연구와 달리, 학습자가 주어진 클래스 Π 내에서 최적의 정책을 찾지만, Π가 기저 작업에 대한 최적 정책을 포함한다는 보장이 없는, 가능한 가장 약한 형태의 함수 근사인 불가지론적 정책 학습을 고려합니다. 표준 온라인 RL 설정에서 추가적인 가정 없이는 표본 효율적인 불가지론적 정책 학습이 불가능하다는 것이 알려져 있지만, 환경에 대한 더 강력한 접근 방식으로 이를 어느 정도 극복할 수 있는지 조사합니다. 구체적으로, 1. 이전에 방문한 모든 상태로 재설정할 수 있는 로컬 시뮬레이터에 접근할 수 있는 경우에도 불가지론적 정책 학습은 통계적으로 다루기 어렵다는 것을 보여줍니다. 이 결과는 정책 클래스가 실현 가능한 경우에도 성립하며, 실현 가능성 하에서 가치 기반 학습이 로컬 시뮬레이터 접근 방식으로 다루기 쉽다는 [MFR24]의 긍정적인 결과와 대조됩니다. 2. 상태 공간에 대한 우수한 적용 범위 속성을 가진 재설정 분포에 대한 온라인 접근(소위 μ-재설정 설정)이 주어진 경우에도 불가지론적 정책 학습은 통계적으로 다루기 어렵습니다. 또한 정책 학습을 위한 더 강력한 형태의 함수 근사를 연구하여 PSDP [BKSN03]와 CPI [KL02]가 정책 완전성이 없는 경우 증명할 수 없이 실패함을 보여줍니다. 3. 긍정적인 측면으로, 위의 두 가지 재설정 모델에 모두 접근할 수 있는 블록 MDP의 경우 불가지론적 정책 학습은 통계적으로 다루기 쉽습니다. 이는 모든 정책 π ∈ Π의 값 함수를 근사하는 작은 상태 공간을 가진 표 형식 MDP인 정책 에뮬레이터를 신중하게 구성하는 새로운 알고리즘을 통해 확립합니다. 이러한 값은 명시적인 값 함수 클래스 없이 근사됩니다.