본 논문은 on-policy 강화 학습에서 발생하는 잡음과 낮은 신호의 기울기 문제를 해결하기 위해, Evolution Strategies (ES)를 정책 기울기 프록시로 재조명하고 탐색을 제한된 반대칭 삼각 섭동으로 국지화하는 Triangular-Distribution ES (TD-ES)를 제안합니다. TD-ES는 제한된 삼각 노이즈와 중심 랭크 유한 차분 추정기를 결합하여 안정적이고 병렬화 가능한, 기울기 없는 업데이트를 제공합니다. PPO 사전 훈련 후 TD-ES 정제라는 2단계 파이프라인을 통해 초기 샘플 효율성을 유지하면서 후반 단계의 강력한 이득을 얻을 수 있습니다. 로봇 조작 작업에서 TD-ES는 PPO 대비 성공률을 26.5% 향상시키고 분산을 크게 줄여, 안정적인 정제를 위한 간단하고 계산 효율적인 방법을 제공합니다.