この論文では、希少補償強化学習(RL)の難しさを解決するために、政策認識行列完成(PAMC)という新しい構造的補償学習フレームワークを紹介します。 PAMCは、方針に偏ったサンプリングの下で、補償行列の近似的低次元+希少構造を利用しています。逆トレンドウェイトを使用して回復保証を証明し、完成エラーと制御パフォーマンスを結ぶ訪問重みエラー - 後悔境界を設定します。仮定が弱まると、PAMC は安全にナビゲーションに戻るように信頼区間を広げ、アルゴリズムを中断します。実験的に、PAMCはAtari-26、DM Control、MetaWorld MT50、D4RLオフラインRL、および基本設定RLベンチマークでサンプル効率を向上させ、計算正規化比較でDrQ-v2、DreamerV3、Agent57、T-REX / D-REX、およびPrefPPOを上回ります。本研究の結果は,PAMCは構造補償が存在する場合の実用的で原則的なツールであり,より広い構造補償学習の観点の具体的な最初の例であることを強調した。