본 논문은 전략적 탐색이 필요한 일반적인 함수 근사를 사용하는 상황에서, 기존 강화학습(RL)의 actor-critic 알고리즘의 표본 복잡도 한계를 극복하는 새로운 알고리즘을 제시합니다. 제안된 알고리즘은 $O(dH^5 \log|\mathcal{A}|/\epsilon^2 + d H^4 \log|\mathcal{F}|/ \epsilon^2)$의 표본 복잡도를 달성하며, Bellman eluder dimension $d$가 $T$에 대해 $\log T$ 비율보다 빠르게 증가하지 않는 경우 $\sqrt{T}$ 후회를 동반합니다. 여기서 $\mathcal{F}$는 비평가 함수 클래스, $\mathcal{A}$는 행동 공간, $H$는 유한 지평 MDP 설정에서의 지평입니다. 이 알고리즘은 낙관주의, 최적 Q-함수를 목표로 하는 오프폴리시 비평가 추정, 그리고 드문 전환 정책 재설정을 통합합니다. 또한, 하이브리드 RL 설정으로 확장하여, 오프라인 데이터로 비평가를 초기화하면 순수 오프라인 또는 온라인 RL에 비해 표본 효율성이 향상됨을 보여줍니다. 더 나아가, 오프라인 데이터에 접근하여 낙관주의를 생략하는 대신 $N_{\text{off}} \geq c_{\text{off}}^dH^4/\epsilon^2$의 추가적인 오프라인 샘플만 필요로 하는 증명 가능한 효율적인 비낙관적인 actor-critic 알고리즘을 제공합니다. 여기서 $c_{\text{off}}^$는 단일 정책 집중 계수이고 $N_{\text{off}}$는 오프라인 샘플의 수입니다. 마지막으로, 이론적 결과를 뒷받침하는 수치 실험을 제공합니다.