本論文は,汚染,トータルバリエーション(TV)距離,ワッサーシュタイン不確実性集合の下での堅牢な平均補償Markov意思決定プロセス(MDP)に関するQ学習とアクタークリティカルアルゴリズムの非漸近的収束分析を提示した。重要な分析要因は、慎重に設計された準ノルム(定数関数を除く)に最適な堅牢なQ演算子が厳しい収縮であることを示しています。これらの特性により、$\tilde{\mathcal{O}}(\epsilon^{-2})$ 個のサンプルを使用して最適な堅牢な Q 関数を学習する確率的近似更新が可能になります。また、堅牢なQ関数推定のための効率的なルーチンを提供し、これは堅牢な批評家推定を容易にします。これに基づいて、 $\tilde{\mathcal{O}}(\epsilon^{-2})$ 個のサンプル内で $\epsilon$-最適な堅牢なポリシーを学習する actor-critic アルゴリズムを提示します。アルゴリズムのパフォーマンスを評価するための数値シミュレーションを提供します。