온-정책 강화 학습(RL)에서 발생하는 잡음이 많고 신호가 낮은 기울기 문제를 해결하기 위해, 정책 기울기 프록시로 진화 전략(ES)을 재검토하고, 정책 개선에 적합한 경계가 있는 반대 삼각 교란을 사용하여 탐색을 국소화한다. Triangular-Distribution ES (TD-ES)를 제안하며, 이는 경계가 있는 삼각 노이즈와 중심 랭크 유한 차분 추정기를 결합하여 안정적이고 병렬화 가능한, 기울기 없는 업데이트를 제공한다. PPO 사전 훈련 후 TD-ES 개선의 두 단계 파이프라인에서 TD-ES는 초기 샘플 효율성을 유지하면서 강력한 후반기 이득을 얻을 수 있게 한다. 로봇 조작 작업에서 TD-ES는 PPO 대비 성공률을 26.5% 향상시키고 분산을 크게 줄여, 신뢰할 수 있는 개선을 위한 간단하고 계산 효율적인 방법을 제공한다.