この論文では、オフライン強化学習(RL)における小規模データセットの活用について研究します。多くのオフラインRLベンチマークは100万を超えるデータポイントを使用しますが、実際のアプリケーションでははるかに小さいデータセットに依存することがよくあります。論文は、オフラインRLアルゴリズムが小規模なデータセットで過剰に適合する可能性があるため、パフォーマンスが低下する可能性があることを示しています。このような課題を解決するために、論文では、過適合を緩和する希少性に基づく正規化技術である「Sparse-Reg」を提示します。 Sparse-Regは、限られたデータ環境で効果的な学習を可能にし、継続的な制御分野で最先端の基準モデルよりも優れた性能を発揮します。