本論文では、不確実なモデルを持つマルコフ決定プロセス(MDP)におけるオンライン計画のための新しいアルゴリズムであるRobust Sparse Sampling(RSS)を提案します。従来のSparse Samplingは名目価値関数を推定し、RSSはSample Average Approximation(SAA)の効率と理論的特性を活用して堅牢な値関数を計算します。これは、限られたデータで学習された生成モデルの近似誤差によるパフォーマンスの低下や安全でない動作を軽減します。 RSSは有限サンプルの理論的性能保証を提供し、無限または連続状態空間に適用可能であり、サンプルと計算の複雑さは状態空間サイズとは無関係です。実験の結果、RSSは、不確実なダイナミクスを持つ環境では、従来のSparse Samplingよりも優れた性能を示します。