본 논문은 재현 핵 힐베르트 공간(RKHS)으로 표현된 강화 학습(RL) 정책에 대해 처음으로 2차 최적화 프레임워크인 "RKHS에서의 Policy Newton"을 제시합니다. 기존 RKHS 기반 정책 최적화는 무한 차원 Hessian 연산자의 계산 및 역행렬 계산의 어려움으로 1차 최적화 기법에 국한되었으나, 본 연구는 3차 규제 보조 목적 함수를 최적화하여 Hessian 역행렬의 직접 계산을 피합니다. Representer Theorem을 활용하여 무한 차원 최적화 문제를 유한 차원 문제로 변환하며, 국소적 2차 수렴 속도로 국소 최적점에 수렴함을 이론적으로 증명합니다. 간단한 금융 자산 배분 문제와 표준 RL 벤치마크 실험을 통해 1차 RKHS 방법 및 매개변수 2차 방법에 비해 우수한 수렴 속도와 높은 에피소드 보상을 달성함을 보여줍니다. 이는 비매개변수 정책 표현과 2차 최적화 방법 사이의 간극을 메우는 중요한 연구입니다.