본 논문은 오염, total-variation(TV) 거리, Wasserstein 불확실성 집합 하에서 강건한 평균 보상 Markov 의사결정 프로세스(MDP)에 대한 Q-학습 및 actor-critic 알고리즘의 비점근적 수렴 분석을 제시합니다. 핵심적인 분석 요소는 신중하게 설계된 준-노름(상수 함수를 제외한)에 대해 최적의 강건한 Q 연산자가 엄격한 수축임을 보이는 것입니다. 이러한 특성을 통해 $\tilde{\mathcal{O}}(\epsilon^{-2})$개의 샘플을 사용하여 최적의 강건한 Q-함수를 학습하는 확률적 근사 업데이트가 가능해집니다. 또한 강건한 Q-함수 추정을 위한 효율적인 루틴을 제공하며, 이는 강건한 비평가 추정을 용이하게 합니다. 이를 기반으로 $\tilde{\mathcal{O}}(\epsilon^{-2})$개의 샘플 내에서 $\epsilon$-최적의 강건한 정책을 학습하는 actor-critic 알고리즘을 제시합니다. 알고리즘의 성능을 평가하기 위한 수치적 시뮬레이션을 제공합니다.