本論文は、遷移力学の認識的不確実性を明示的にモデル化することによって、MDPを拡張した堅牢なMDP(r-MDP)のための新しい解決と学習方法を提示します。未知の環境との相互作用を通じてr-MDPを学習することは、パフォーマンスに対する実証可能な(PAC)保証を持つ堅牢なポリシーの合成を可能にしますが、多くのサンプル相互作用が必要になる場合があります。本稿では、システムコンポーネント間のモデルの不確実性の独立性を利用する要因化された状態空間表現に基づいて、r-MDPを解決し学習するための新しい方法を提案します。要因化されたr-MDPのポリシー合成は困難で非凸最適化の問題につながりますが、それを扱いやすい線形計画法で再構成する方法を示しています。これに基づいて、要因化されたモデル表現を直接学習する方法も提案します。実験結果は、要因構造を活用することでサンプル効率で次元的な利得を得ることができ、最先端の方法よりも効果的な堅牢な方針をより厳格な性能保証とともに生成できることを示しています。