자연 정책 경사(NPG)는 일반적인 정책 최적화 알고리즘이며 확률 공간에서의 미러 상승으로 볼 수 있습니다. Vaswani et al. [2021]은 로짓의 이중 공간에서의 미러 상승에 해당하는 정책 경사 방법을 제시했습니다. 본 논문에서는 이 알고리즘을 개선하여 액션에 대한 정규화가 필요 없도록 하고, 결과적으로 얻어진 방법(SPMA라고 함)을 분석합니다. 표 형태의 MDP에 대해, 일정한 스텝 크기를 사용하는 SPMA가 NPG의 선형 수렴과 일치하고, 일정한 스텝 크기를 사용하는(가속화된) 소프트맥스 정책 경사보다 빠른 수렴을 달성함을 증명합니다. 큰 상태-액션 공간을 처리하기 위해, 본 논문은 SPMA를 확장하여 로그 선형 정책 매개변수화를 사용합니다. NPG와 달리, SPMA를 선형 함수 근사(FA) 설정으로 일반화하는 데는 호환 가능한 함수 근사가 필요하지 않습니다. NPG의 실용적인 일반화인 MDPO와 달리, 선형 FA를 사용하는 SPMA는 볼록 소프트맥스 분류 문제를 푸는 것만 필요합니다. SPMA가 최적 값 함수의 근방으로 선형 수렴함을 증명합니다. 비선형 FA를 처리하도록 SPMA를 확장하고 MuJoCo 및 Atari 벤치마크에서 경험적 성능을 평가합니다. 결과는 SPMA가 MDPO, PPO 및 TRPO와 비교하여 일관되게 유사하거나 더 나은 성능을 달성함을 보여줍니다.