본 논문은 일반적인 매개변수화를 갖는 무한 지평선 평균 보상 제약 마르코프 의사결정 프로세스(CMDP)를 연구합니다. 제약 조건을 효과적으로 관리하면서 높은 수렴 속도를 보장하는 Primal-Dual Natural Actor-Critic 알고리즘을 제안합니다. 특히, 혼합 시간(τmix)을 학습자가 알고 있는 경우, 본 알고리즘은 길이 T의 지평선에서 $\tilde{\mathcal{O}}(1/\sqrt{T})$의 전역 수렴 및 제약 위반율을 달성합니다. τmix를 모르는 경우, $T \geq \tilde{\mathcal{O}}\left(\tau_{\mathrm{mix}}^{2/\epsilon}\right)$이면 $\tilde{\mathcal{O}}(1/T^{0.5-\epsilon})$의 속도를 달성합니다. 본 논문의 결과는 마르코프 의사결정 프로세스에 대한 이론적 하한선과 일치하며, 평균 보상 CMDP의 이론적 탐구에 새로운 기준을 제시합니다.