Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

What Fundamental Structure in Reward Functions Enables Efficient Sparse-Reward Learning?

Created by
  • Haebom

作者

Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

概要

この論文では、希少補償強化学習(RL)の難しさを解決するために、政策認識行列完成(PAMC)という新しい構造的補償学習フレームワークを紹介します。 PAMCは、方針に偏ったサンプリングの下で​​、補償行列の近似的低次元+希少構造を利用しています。逆トレンドウェイトを使用して回復保証を証明し、完成エラーと制御パフォーマンスを結ぶ訪問重みエラー - 後悔境界を設定します。仮定が弱まると、PAMC は安全にナビゲーションに戻るように信頼区間を広げ、アルゴリズムを中断します。実験的に、PAMCはAtari-26、DM Control、MetaWorld MT50、D4RLオフラインRL、および基本設定RLベンチマークでサンプル効率を向上させ、計算正規化比較でDrQ-v2、DreamerV3、Agent57、T-REX / D-REX、およびPrefPPOを上回ります。本研究の結果は,PAMCは構造補償が存在する場合の実用的で原則的なツールであり,より広い構造補償学習の観点の具体的な最初の例であることを強調した。

Takeaways、Limitations

Takeaways:
方針に偏ったサンプリングの下で​​も、補償行列の低次元+希少構造を活用して、希少補償強化学習のサンプル効率を向上させることができることを示しています。
逆 - 傾向の重みと訪問の重みの誤り - 後悔の境界を通して理論的根拠を提示します。
さまざまなベンチマークで既存の方法を上回る実験結果を提示します。
構造的補償学習という新しい視点を提示し、それに関する具体的な方法論を提供する。
Limitations:
補償行列が近似的に低次元+希少構造を持つという仮定が必要であり、この仮定が常に満足されるわけではない。
仮定が弱くなると、アルゴリズムが中断され、安全にナビゲーションに戻りますが、これはパフォーマンスの低下を引き起こす可能性があります。
実験結果は特定のベンチマークに限定されており、他の環境では性能が異なる可能性があります。
👍