本論文は、強化学習(RL)でのサンプルの非効率性問題を解決するために、ポテンシャルベースの報酬形成(PBRS)を使用する研究について説明します。適切な潜在関数選択の難しさと計算上の制限による有限地平線の使用の偏りの問題を指摘し,最適値関数を潜在関数として選択することが性能向上に寄与する理由の理論的根拠を提示した。有限地平線がPBRSに誘発する偏向を分析し、抽象化を利用して最適値関数を近似することで、目標指向のナビゲーション作業と3つのアーケード学習環境(ALE)ゲームを含む4つの環境でPBRSのサンプル効率とパフォーマンスの影響を評価します。実験結果は、単純な完全接続ネットワークがCNNベースのソリューションと同じレベルのパフォーマンスを達成できることを示しています。