本論文は、報酬信号が非常にまれな実世界シナリオで効果的な補償関数を学習することの難しさを解決するために提案された方法を提示します。提案された方法は、ゼロ補償遷移を含むすべての遷移を利用して補償形成を実行する。特に、リングマップ学習(SSL)技術と新しいデータ拡張技術を組み合わせて、ゼロ補償遷移から軌道空間表現を学習して、補償形成の効率を向上させます。 Atariゲームとロボット操作実験の結果、提案された方法は報酬推論で指導学習ベースの方法を上回り、エージェントスコアを高めます。特に報酬がよりまれな環境では、従来の方法に対して最大2倍の最高スコアを達成します。提案されたデュアルエントロピーデータエンハンスメント技術はパフォーマンスを向上させ、他のエンハンスメント方法より15.8%高いピークスコアを記録します。