Este artículo presenta un análisis de convergencia no asintótica de algoritmos de aprendizaje Q y actor-crítico para procesos de decisión de Markov (MDP) robustos de recompensa-media bajo contaminación, distancia de variación total (TV) y conjuntos de incertidumbre de Wasserstein. El elemento clave del análisis es mostrar que el operador Q robusto óptimo es estrictamente contráctil para cuasi-normas cuidadosamente diseñadas (excluyendo funciones constantes). Esta propiedad permite una actualización aproximada probabilística que aprende la función Q robusta óptima utilizando $\tilde{\mathcal{O}}(\epsilon^{-2})$ muestras. Además, proporcionamos una rutina eficiente para la estimación robusta de la función Q, que facilita la estimación robusta del crítico. Con base en esto, presentamos un algoritmo actor-crítico que aprende políticas robustas $\epsilon$-óptimas dentro de $\tilde{\mathcal{O}}(\epsilon^{-2})$ muestras. Se proporcionan simulaciones numéricas para evaluar el rendimiento del algoritmo.