Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Efficient $Q$-Learning and Actor-Critic Methods for Robust Average Reward Reinforcement Learning

Created by
  • Haebom

作者

Yang Xu, Swetha Ganesh, Vaneet Aggarwal

概要

本論文は,汚染,トータルバリエーション(TV)距離,ワッサーシュタイン不確実性集合の下での堅牢な平均補償Markov意思決定プロセス(MDP)に関するQ学習とアクタークリティカルアルゴリズムの非漸近的収束分析を提示した。重要な分析要因は、慎重に設計された準ノルム(定数関数を除く)に最適な堅牢なQ演算子が厳しい収縮であることを示しています。これらの特性により、$\tilde{\mathcal{O}}(\epsilon^{-2})$ 個のサンプルを使用して最適な堅牢な Q 関数を学習する確率的近似更新が可能になります。また、堅牢なQ関数推定のための効率的なルーチンを提供し、これは堅牢な批評家推定を容易にします。これに基づいて、 $\tilde{\mathcal{O}}(\epsilon^{-2})$ 個のサンプル内で $\epsilon$-最適な堅牢なポリシーを学習する actor-critic アルゴリズムを提示します。アルゴリズムのパフォーマンスを評価するための数値シミュレーションを提供します。

Takeaways、Limitations

Takeaways:
堅牢な平均補償MDPのためのQ学習とactor-criticアルゴリズムの非漸近的収束分析を提供することによって理論的基盤を確立した。
最適な堅牢なQ演算子の厳格な収縮性を証明し,効率的な学習アルゴリズム設計の基礎を提供した。
$\Tilde{\mathcal{O}}(\epsilon^{-2})$ のサンプル複雑さを達成する効率的な堅牢な Q 関数およびポリシー学習アルゴリズムを提案しました。
Limitations:
実際の応用分野におけるアルゴリズム性能のさらなる実験的検証が必要である。
様々なタイプの不確実性セットの一般化の可能性に関するさらなる研究が必要である。
高次元状態空間におけるアルゴリズムの計算複雑度の分析が必要である。
👍