Bài báo này trình bày một phân tích hội tụ không tiệm cận của các thuật toán học Q và tác nhân-phê bình cho các quy trình quyết định Markov phần thưởng trung bình mạnh mẽ (MDP) trong điều kiện ô nhiễm, khoảng cách biến thiên toàn phần (TV) và các tập bất định Wasserstein. Yếu tố chính của phân tích là chỉ ra rằng toán tử Q mạnh mẽ tối ưu là co rút nghiêm ngặt đối với các chuẩn mực giả được thiết kế cẩn thận (không bao gồm các hàm hằng số). Thuộc tính này cho phép cập nhật xấp xỉ xác suất học hàm Q mạnh mẽ tối ưu bằng cách sử dụng các mẫu $\tilde{\mathcal{O}}(\epsilon^{-2})$. Hơn nữa, chúng tôi cung cấp một quy trình hiệu quả để ước tính hàm Q mạnh mẽ, tạo điều kiện cho ước tính phê bình mạnh mẽ. Dựa trên điều này, chúng tôi trình bày một thuật toán tác nhân-phê bình học các chính sách mạnh mẽ $\epsilon$-tối ưu trong các mẫu $\tilde{\mathcal{O}}(\epsilon^{-2})$. Các mô phỏng số được cung cấp để đánh giá hiệu suất của thuật toán.