본 논문은 Lipschitz MDPs에 대한 무한 지평선 평균 보상 강화 학습(RL)을 연구합니다. Lipschitz MDPs는 선형 및 RKHS MDPs, 함수 근사 프레임워크와 같은 여러 중요한 클래스를 포함하는 광범위한 클래스입니다. 논문에서는 $\mathcal{O}\big(T^{1 - d_{\text{eff.}}^{-1}}\big)$로 경계되는 후회를 가진 적응형 알고리즘 ZoRL을 개발합니다. 여기서 $d_{\text{eff.}}= 2d_\mathcal{S} + d_z + 3$, $d_\mathcal{S}$는 상태 공간의 차원이고 $d_z$는 확대 차원입니다. 고정된 이산화를 사용하는 알고리즘은 $d_{\text{eff.}} = 2(d_\mathcal{S} + d_\mathcal{A}) + 2$ ($d_\mathcal{A}$는 행동 공간의 차원)을 산출하는 것과 대조적입니다. ZoRL은 상태-행동 공간을 적응적으로 이산화하고 상태-행동 공간의 "유망한 영역"으로 확대함으로써 이를 달성합니다. 상태-행동 공간의 차원으로 제한되는 문제 의존적 양인 $d_z$를 통해 MDP가 양호하면 ZoRL의 후회가 작을 것이라는 결론을 내릴 수 있습니다. 확대 차원과 ZoRL은 진정으로 적응적이며, 본 연구는 무한 지평선 평균 보상 RL에 대한 적응성 이득을 포착하는 방법을 보여줍니다. 실험에서 ZoRL은 다른 최첨단 알고리즘보다 성능이 우수하여 적응성으로 인한 이득을 보여줍니다.