Cet article présente un modèle mathématique et une méthode pour résoudre des situations d'apprentissage par renforcement où un agent atteint un état inconnu. Nous proposons un modèle de « processus de décision de Markov épisodique avec prise de conscience croissante » (EMDP-GA) pour les situations où l'agent atteint un état hors de son domaine de conscience. Le modèle EMDP-GA utilise la technique d'« expansion de valeur non informative » (NIVE), qui initialise la fonction de valeur du nouvel état avec une croyance non informative (la valeur moyenne du domaine connu). Cette conception reflète l'absence de connaissance préalable de la valeur de l'état. De plus, nous appliquons l'apprentissage Q par la borne supérieure de confiance de l'impulsion pour entraîner le modèle EMDP-GA. Par conséquent, malgré l'accès à un état inconnu, nous démontrons que le modèle proposé atteint un niveau de regret comparable aux méthodes de pointe (SOTA), et que sa complexité de calcul et d'espace est comparable à celle des méthodes SOTA.