Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Deep Reinforcement Learning with Gradient Eligibility Traces

Created by
  • Haebom

作者

Esraa Elelimy, Brett Daley, Andrew Patterson, Marlos C. Machado, Adam White, Martha White

概要

この論文は、深い強化学習で迅速かつ安定したオフポリッシュ学習を達成することの難しさについて説明します。従来の方法のほとんどは、単純さと効率性のために準傾斜TD法に依存していますが、発散する危険があります。 GTD(Gradient TD)法などのより原則的なアプローチは、強力な収束保証を提供しますが、深層強化学習ではほとんど使用されていません。最近の研究では、一般化されたProjected Bellman Error($\overline{\text{PBE}}$)を導入し、非線形関数近似を使用するGTD法の効率的な動作を可能にしました。しかし、この研究は信用配分が遅く、多くのサンプルが必要な1段階の方法に限定されています。この論文では、$\lambda$-returnに基づいてマルチレベルのクレジット割り当てをサポートするように一般化された$\overline{\text{PBE}}$目標を拡張し、この新しい目標を最適化する3つの傾斜ベースの方法を紹介します。体験再生と互換性のある前方可視化式とストリーミングアルゴリズムと互換性のある後方可視化式の両方を提供します。最後に、提案されたアルゴリズムを評価して、MuJoCoおよびMinAtar環境でそれぞれPPOおよびStreamQを上回ることを示します。コードはhttps://github.com/esraaelelimy/gtd\_algosで確認できます。

Takeaways、Limitations

Takeaways: $\lambda$-return ベースの多段階クレジット割当をサポートする一般化された $\overline{\text{PBE}}$ 目標と、これを最適化する 3 つの傾斜ベースの方法を提示し、従来のオフポリッシュディープ強化学習アルゴリズムよりもパフォーマンスが優れていることを示しました。前方および後方の可視化式を提供し、さまざまな学習環境に適用可能性を高めました。
Limitations:提示されたアルゴリズムのパフォーマンスはMuJoCoおよびMinAtar環境でのみ評価されているため、他の環境での一般化パフォーマンスに関するさらなる研究が必要です。さらに、アルゴリズムの計算の複雑さおよびサンプル効率のより詳細な分析が必要である。
👍