Este artículo presenta un modelo matemático y un método para resolver situaciones de aprendizaje por refuerzo en las que un agente alcanza un estado desconocido. Proponemos un modelo de "proceso de decisión episódico de Markov con consciencia creciente (EMDP-GA)" para situaciones en las que el agente alcanza un estado fuera de su dominio de consciencia. El modelo EMDP-GA utiliza la técnica de "expansión de valor no informativo (NIVE)", que inicializa la función de valor del nuevo estado con una creencia no informativa (el valor promedio del dominio conocido). Este diseño refleja la ausencia de conocimiento previo sobre el valor del estado. Además, aplicamos Q-learning de Momentum de Límite Superior de Confianza para entrenar el modelo EMDP-GA. En consecuencia, a pesar de acceder a un estado desconocido, demostramos que el modelo propuesto alcanza un nivel de arrepentimiento comparable al de los métodos SOTA (de última generación), y que su complejidad computacional y espacial son comparables a las de los métodos SOTA.