본 논문은 일반적인 상태 및 행동 공간을 갖는 강화학습 문제의 어려움을 해결하기 위한 새로운 정책 최적화 방법론을 제안합니다. 기존에는 상태 공간을 모두 열거해야 했던 제약을 벗어나, 함수 근사를 직접적으로 활용하여 명시적인 정책 매개변수화 없이도 적용 가능한 정책 거울 하강법(policy mirror descent)을 일반화했습니다. 또한, 함수 근사 기술에 좀 더 유연성을 제공하는 새로운 정책 쌍평균법(policy dual averaging)을 개발했으며, 두 방법 모두 정확한 정책 평가를 가정할 때 전역 최적해로의 선형 수렴 또는 정류점(stationarity)으로의 준선형 수렴을 보장합니다.