본 논문은 강화학습(RL)에서 다양한 최신 알고리즘을 포함하는 정책 미러 하강(PMD) 알고리즘의 일반적인 계열에 함수적 가속을 적용합니다. 이중성을 활용하여 모멘텀 기반 PMD 업데이트를 제안합니다. 함수적 접근 방식을 통해, 제안된 방법은 정책 매개변수화와 무관하며 대규모 최적화에 적용 가능하며, 이전에 정책 매개변수 수준에서 모멘텀을 적용한 것을 특수한 경우로 포함합니다. 이 접근 방식의 여러 특성을 이론적으로 분석하고, 수치적 ablation 연구를 통해 정책 최적화 역학을 값 다면체 상에서 다양한 알고리즘 설계 선택과 비교하여 보여줍니다. 또한 함수적 가속에 관련된 문제 설정의 여러 특징을 수치적으로 특성화하고, 마지막으로 근사의 영향을 학습 메커니즘에 대해 조사합니다.