Bài báo này trình bày một mô hình toán học và phương pháp để giải quyết các tình huống trong học tăng cường khi một tác nhân đạt đến trạng thái chưa biết. Chúng tôi đề xuất một mô hình "quy trình quyết định Markov theo từng giai đoạn với nhận thức ngày càng tăng (EMDP-GA)" cho các tình huống mà tác nhân đạt đến trạng thái nằm ngoài miền nhận thức của nó. Mô hình EMDP-GA sử dụng kỹ thuật "mở rộng giá trị phi thông tin (NIVE)", khởi tạo hàm giá trị cho trạng thái mới với một niềm tin phi thông tin (giá trị trung bình của miền đã biết). Thiết kế này phản ánh việc không có bất kỳ kiến thức nào trước đó về giá trị của trạng thái. Hơn nữa, chúng tôi áp dụng học máy động lượng giới hạn trên (Upper Confidence Bound Momentum Q-learning) để huấn luyện mô hình EMDP-GA. Do đó, mặc dù đạt đến trạng thái chưa biết, chúng tôi chứng minh rằng mô hình được đề xuất đạt được mức độ hối tiếc tương đương với các phương pháp tiên tiến (SOTA), và độ phức tạp về mặt tính toán và không gian của nó tương đương với các phương pháp SOTA.