[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Return Capping: Sample-Efficient CVaR Policy Gradient Optimisation

Created by
  • Haebom

저자

Harry Mead, Clarissa Costen, Bruno Lacerda, Nick Hawes

개요

정책 경사(PG)를 사용하여 조건부 위험가치(CVaR)를 최적화할 때, 기존 방법들은 많은 양의 궤적을 버림으로써 샘플 효율성이 떨어지는 문제가 있습니다. 본 논문에서는 훈련에 사용되는 궤적의 총 수익을 제한함으로써 CVaR 최적화 문제를 재구성하고, 이 제한을 적절히 설정하면 원래 문제와 동일함을 보입니다. 여러 환경에서의 실험 결과를 통해, 이러한 문제의 재구성이 기준선에 비해 일관되게 향상된 성능을 보임을 보여줍니다. 모든 코드는 https://github.com/HarryMJMead/cvar-return-capping 에서 이용 가능합니다.

시사점, 한계점

시사점: 궤적의 총 수익을 제한하는 CVaR 최적화 문제의 재구성은 기존 방법보다 샘플 효율성을 크게 향상시킵니다. 다양한 환경에서 일관된 성능 향상을 보여줍니다.
한계점: 제시된 방법의 최적 제한 값 설정에 대한 명확한 지침이 부족할 수 있습니다. 특정 환경에 대한 최적의 제한 값은 경험적으로 결정되어야 할 수 있습니다. 다양한 환경에서의 일반화 성능에 대한 추가적인 연구가 필요합니다.
👍