본 논문은 강화학습에서 정책 최적화를 위한 2차 접근법을 연구합니다. 기존의 2차 방법들은 최적이 아닌 샘플 복잡도를 갖거나 중요도 샘플링에 대한 비현실적인 가정에 의존하는 경우가 많습니다. 이러한 한계를 극복하기 위해, 분산 감소 큐빅 정규화 정책 뉴턴 알고리즘인 VR-CR-PN을 제안합니다. 본 논문에서 제안하는 알고리즘은 헤시안 기반 분산 감소를 2차 정책 최적화와 통합한 최초의 알고리즘이며, 분포 이동 문제를 효과적으로 해결하고 중요도 샘플링 없이 일반적인 비볼록 조건 하에서 최고의 샘플 복잡도를 달성합니다. VR-CR-PN이 $\epsilon$-2차 정류점에 도달하기 위한 샘플 복잡도가 $\tilde{\mathcal{O}}(\epsilon^{-3})$임을 이론적으로 밝히고, 이는 비슷한 가정 하에서 이전 최고 결과인 $\tilde{\mathcal{O}}(\epsilon^{-3.5})$를 크게 개선한 것입니다. 또한, 기대 수익 함수에 대한 새로운 헤시안 추정기를 제시하는데, 이 추정기는 horizon 길이 $H$와 무관한 균일한 상한을 가지므로 알고리즘이 horizon과 무관한 샘플 복잡도를 달성할 수 있습니다.