Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Automatic Reward Shaping from Confounded Offline Data

Created by
  • Haebom

作者

Mingxuan Li, Junzhe Zhang, Elias Bareinboim

概要

この論文は、未知の環境でエージェントを制御し、パフォーマンススケールを最適化するための効果的な政策学習という人工知能の重要な課題を取り上げます。 Q学習のようなオフポリス学習方法は、学習者が過去の経験に基づいて最適な意思決定を下すことを可能にします。この論文は、観察されていない外乱変数を事前に除外することができない複雑で高次元の領域で偏向されたデータからのオフポリッシュ学習を研究する。周知の深層Qネットワーク(DQN)に基づいて、観察されたデータの乱れ偏向に強い新しい深層強化学習アルゴリズムを提案する。具体的には、このアルゴリズムは、観察と互換性のある最悪の環境に対する安全な方針を見つけようとします。本研究は、提案された方法を12の乱れたAtariゲームに適用し、行動方針と目標方針への観察された入力が不一致であり、観察されなかった外乱変数が存在するすべてのゲームで標準DQNより一貫して優れた性能を示すことを確認した。

Takeaways、Limitations

Takeaways:観察されていない外乱変数が存在する複雑な環境でのオフポリッシュ強化学習のパフォーマンスを向上させるための新しいアルゴリズムを提案しました。提案されたアルゴリズムはAtariゲームで従来のDQNより優れた性能を示した。最悪の環境に対する安全な政策を求めるアプローチは、外乱偏向に対する強靭性を高めるのに有効であることを示した。
Limitations:提案されたアルゴリズムの性能評価はAtariゲームに限定されており、他の種類の環境や問題の一般化の可能性にはさらなる研究が必要です。観察されていない外乱変数を明示的にモデル化することなく、最悪の場合を仮定するアプローチは保守的な政策をもたらす可能性があります。実際の環境での適用性と効率性のさらなる検証が必要です。
👍