Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Optimistic Exploration for Risk-Averse Constrained Reinforcement Learning

Created by
  • Haebom

作者

James McCarthy, Radu Marinescu, Elizabeth Daly, Ivana Dusparic

概要

本論文は、ヘッジ制約強化学習(RaCRL)における保守的な探索のために最適ではない方針に収束する問題を解決するために、楽観的ヘッジ行為者批評(ORAC)アルゴリズムを提案します。 ORACは、状態 - 行動補償価値関数の上限信頼区間を最大化し、ヘッジ状態 - 行動コスト値関数の下限信頼区間を最小限に抑えるナビゲーションポリシーを構成します。安全制約を満たしながら、高補償状態を発見するために不確実な領域を探索するように誘導し、Safety-GymnasiumやCityLearnなどの連続制御作業における従来の方法よりも改善された補償コストの妥協を示しています。

Takeaways、Limitations

Takeaways:
ヘッジ制約強化学習から非最適な方針への収束問題を効果的に解決する新しい探索ベースのアプローチの提示
不確実な環境領域を効果的に探索し、報酬を最大化しながら安全制約を満たす政策学習可能。
Safety-GymnasiumやCityLearnなど、さまざまな連続制御作業でパフォーマンスの向上を実験的に実証
報酬とリスクの間の効率的なトレードオフを提供します。
Limitations:
提案されたアルゴリズムの性能が特定の環境に依存する可能性がある。様々な環境での一般化性能に関する追加研究の必要性
上限と下限の信頼区間の正確な推定がアルゴリズム性能に大きな影響を与える可能性がある。信頼区間推定法の改善の必要性
複雑な環境での計算コストが高くなる可能性があります。計算効率の向上に関する研究の必要性
👍