Este artículo presenta una solución novedosa y un método de aprendizaje para MDP robustos (r-MDP), que los extienden modelando explícitamente la incertidumbre epistémica sobre la dinámica de transición. El aprendizaje de r-MDP mediante interacciones con un entorno desconocido permite la síntesis de políticas robustas con garantías de rendimiento demostrables (PAC), pero puede requerir numerosas interacciones de muestra. En este artículo, proponemos un método novedoso para resolver y aprender r-MDP basado en una representación factorizada en el espacio de estados que aprovecha la independencia de las incertidumbres del modelo entre los componentes del sistema. La síntesis de políticas para r-MDP factorizados es compleja y genera un problema de optimización no convexo, pero demostramos cómo replantearlo en un enfoque de programación lineal viable. Con base en este enfoque, también proponemos un método para aprender directamente la representación factorizada del modelo. Los resultados experimentales demuestran que el aprovechamiento de la estructura factorizada produce ganancias dimensionales en la eficiencia de la muestra y genera políticas robustas más efectivas que los métodos más avanzados, con garantías de rendimiento más estrictas.