본 논문은 함수 근사가 필요한 큰 상태 공간을 가진 환경에서 강화 학습(RL)의 통계적 복잡성에 대한 이론적 이해 부족 문제를 다룬다. 기존 연구와 달리, 학습자가 주어진 정책 클래스 Π 내에서 최적의 정책을 찾지만, Π가 기저 작업에 대한 최적 정책을 포함한다는 보장이 없는, 가장 약한 형태의 함수 근사인 불가지론적 정책 학습(agnostic policy learning)을 고려한다. 환경 접근 방식, 적용 조건, 표현 조건의 세 가지 주요 축을 따라 불가지론적 정책 학습을 체계적으로 탐구하여, 이론적 보장을 갖춘 새로운 학습 알고리즘을 설계하고 모든 알고리즘의 기본 성능 경계를 특징짓는다. 결과는 불가지론적 정책 학습의 강점과 한계를 강조하는 중요한 통계적 분리를 보여준다.