Harry Mead, Clarissa Costen, Bruno Lacerda, Nick Hawes
개요
정책 경사(PG)를 사용하여 조건부 위험가치(CVaR)를 최적화할 때, 기존 방법들은 많은 양의 궤적을 버림으로써 샘플 효율성이 떨어지는 문제가 있습니다. 본 논문에서는 훈련에 사용되는 궤적의 총 수익을 제한함으로써 CVaR 최적화 문제를 재구성하고, 이 제한을 적절히 설정하면 원래 문제와 동일함을 보입니다. 여러 환경에서의 실험 결과를 통해, 이러한 문제의 재구성이 기준선에 비해 일관되게 향상된 성능을 보임을 보여줍니다. 모든 코드는 https://github.com/HarryMJMead/cvar-return-capping 에서 이용 가능합니다.