Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Shaping Sparse Rewards in Reinforcement Learning: A Semi-supervised Approach

Created by
  • Haebom

作者

Wenyun Li、Wenjie Huang、Chen Sun

概要

本論文は、報酬信号が非常にまれな実世界シナリオで効果的な補償関数を学習することの難しさを解決するために提案された方法を提示します。提案された方法は、ゼロ補償遷移を含むすべての遷移を利用して補償形成を実行する。特に、リングマップ学習(SSL)技術と新しいデータ拡張技術を組み合わせて、ゼロ補償遷移から軌道空間表現を学習して、補償形成の効率を向上させます。 Atariゲームとロボット操作実験の結果、提案された方法は報酬推論で指導学習ベースの方法を上回り、エージェントスコアを高めます。特に報酬がよりまれな環境では、従来の方法に対して最大2倍の最高スコアを達成します。提案されたデュアルエントロピーデータエンハンスメント技術はパフォーマンスを向上させ、他のエンハンスメント方法より15.8%高いピークスコアを記録します。

Takeaways、Limitations

Takeaways:
まれな報酬環境で効果的な報酬を形成するための新しい方法を提案します。
指導学習とデータ増強を活用したゼロ補償遷移情報の活用
Atariゲームとロボット操作実験における従来の方法と比較して優れた性能を実証
二重エントロピーデータ増強技術の有効性の確認
Limitations:
提案された方法の一般化性能に対する追加実験の必要性
様々な種類の希少補償環境に対する適用性検証が必要
データ増強技術の最適パラメータ設定に関する研究の必要性
👍