この論文は、未知の環境でエージェントを制御し、パフォーマンススケールを最適化するための効果的な政策学習という人工知能の重要な課題を取り上げます。 Q学習のようなオフポリス学習方法は、学習者が過去の経験に基づいて最適な意思決定を下すことを可能にします。この論文は、観察されていない外乱変数を事前に除外することができない複雑で高次元の領域で偏向されたデータからのオフポリッシュ学習を研究する。周知の深層Qネットワーク(DQN)に基づいて、観察されたデータの乱れ偏向に強い新しい深層強化学習アルゴリズムを提案する。具体的には、このアルゴリズムは、観察と互換性のある最悪の環境に対する安全な方針を見つけようとします。本研究は、提案された方法を12の乱れたAtariゲームに適用し、行動方針と目標方針への観察された入力が不一致であり、観察されなかった外乱変数が存在するすべてのゲームで標準DQNより一貫して優れた性能を示すことを確認した。