Bài báo này trình bày một giải pháp và phương pháp học mới cho các MDP mạnh mẽ (r-MDP), mở rộng MDP bằng cách mô hình hóa rõ ràng sự không chắc chắn về nhận thức về động lực chuyển đổi. Việc học r-MDP thông qua tương tác với một môi trường chưa biết cho phép tổng hợp các chính sách mạnh mẽ với các đảm bảo hiệu suất có thể chứng minh (PAC), nhưng có thể yêu cầu nhiều tương tác mẫu. Trong bài báo này, chúng tôi đề xuất một phương pháp mới để giải quyết và học r-MDP dựa trên biểu diễn không gian trạng thái được phân tích nhân tử, tận dụng tính độc lập của các bất định mô hình giữa các thành phần hệ thống. Tổng hợp chính sách cho các r-MDP được phân tích nhân tử là một thách thức và dẫn đến một vấn đề tối ưu hóa không lồi, nhưng chúng tôi trình bày cách định hình lại nó thành một phương pháp lập trình tuyến tính dễ xử lý. Dựa trên phương pháp này, chúng tôi cũng đề xuất một phương pháp để học trực tiếp biểu diễn mô hình được phân tích nhân tử. Kết quả thực nghiệm chứng minh rằng việc tận dụng cấu trúc được phân tích nhân tử mang lại lợi ích về chiều trong hiệu quả mẫu và tạo ra các chính sách mạnh mẽ hiệu quả hơn các phương pháp hiện đại, với các đảm bảo hiệu suất chặt chẽ hơn.