Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Harnessing Bounded-Support Evolution Strategies for Policy Refinement

Created by
  • Haebom
Category
Empty

저자

Ethan Hirschowitz, Fabio Ramos

개요

온-정책 강화 학습(RL)에서 발생하는 잡음이 많고 신호가 낮은 기울기 문제를 해결하기 위해, 정책 기울기 프록시로 진화 전략(ES)을 재검토하고, 정책 개선에 적합한 경계가 있는 반대 삼각 교란을 사용하여 탐색을 국소화한다. Triangular-Distribution ES (TD-ES)를 제안하며, 이는 경계가 있는 삼각 노이즈와 중심 랭크 유한 차분 추정기를 결합하여 안정적이고 병렬화 가능한, 기울기 없는 업데이트를 제공한다. PPO 사전 훈련 후 TD-ES 개선의 두 단계 파이프라인에서 TD-ES는 초기 샘플 효율성을 유지하면서 강력한 후반기 이득을 얻을 수 있게 한다. 로봇 조작 작업에서 TD-ES는 PPO 대비 성공률을 26.5% 향상시키고 분산을 크게 줄여, 신뢰할 수 있는 개선을 위한 간단하고 계산 효율적인 방법을 제공한다.

시사점, 한계점

시사점:
TD-ES는 잡음이 많은 기울기 문제 해결을 위한 대안을 제시한다.
PPO 사전 훈련과 TD-ES 개선의 결합은 초기 샘플 효율성과 후반기 성능 향상을 모두 달성한다.
로봇 조작 작업에서 PPO 대비 성공률을 크게 향상시키고 분산을 감소시킨다.
계산 비용이 적고 단순한 방식으로 신뢰할 수 있는 정책 개선을 제공한다.
한계점:
논문 자체에서 명시된 한계점은 제시되지 않음.
👍