Cet article présente une analyse de convergence non asymptotique des algorithmes d'apprentissage Q et d'acteur-critique pour des processus de décision markoviens (MDP) robustes à moyenne-récompense sous contamination, distance de variation totale (TV) et ensembles d'incertitude de Wasserstein. L'élément clé de l'analyse est de montrer que l'opérateur Q robuste optimal est strictement contractile pour des quasi-normes soigneusement conçues (à l'exclusion des fonctions constantes). Cette propriété permet une mise à jour approximative probabiliste qui apprend la fonction Q robuste optimale à l'aide d'échantillons $\tilde{\mathcal{O}}(\epsilon^{-2})$. De plus, nous fournissons une routine efficace pour l'estimation robuste de la fonction Q, facilitant l'estimation robuste des critiques. Sur cette base, nous présentons un algorithme d'acteur-critique qui apprend des politiques robustes $\epsilon$-optimales au sein d'échantillons $\tilde{\mathcal{O}}(\epsilon^{-2})$. Des simulations numériques sont fournies pour évaluer les performances de l'algorithme.