[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Return Capping: Sample-Efficient CVaR Policy Gradient Optimisation

Created by
  • Haebom

作者

Harry Mead, Clarissa Costen, Bruno Lacerda, Nick Hawes

概要

政策勾配(PG)を使用して条件付きリスク値(CVaR)を最適化する場合、既存の方法は大量の軌跡を捨てることによってサンプル効率が低下するという問題があります。この論文では、トレーニングに使用される軌跡の総収益を制限することによってCVaR最適化問題を再構築し、この制限を適切に設定すると元の問題と同じであることがわかります。いくつかの環境での実験結果は,これらの問題の再構成がベースラインと比較して一貫して改善された性能を示したことを示した。すべてのコードはhttps://github.com/HarryMJMead/cvar-return-cappingで利用可能です。

Takeaways、Limitations

Takeaways:軌跡の総収益を制限するCVaR最適化問題の再構成は、従来の方法よりもサンプル効率を大幅に向上させます。さまざまな環境で一貫したパフォーマンス向上を示します。
Limitations:提示された方法の最適限界値を設定するための明確な指示がない可能性があります。特定の環境に対する最適な制限値は、経験的に決定しなければならない場合がある。様々な環境での一般化性能のさらなる研究が必要である。
👍