Cet article analyse les différences entre la vision traditionnelle de l'apprentissage par renforcement (RL) et celle de l'apprentissage par renforcement continu (ARC), et propose un nouveau formalisme adapté à l'ARC. Alors que l'ARC traditionnel cesse d'apprendre une fois qu'il a trouvé une politique optimale, l'ARC vise l'apprentissage et l'adaptation continus. Nous soutenons que quatre piliers de l'ARC traditionnel, à savoir les processus de décision de Markov (PDM), l'accent mis sur les artefacts indépendants du temps, une métrique d'évaluation de la somme des récompenses attendues et un environnement de référence basé sur les épisodes, qui suivent ces piliers, sont en conflit avec les objectifs de l'ARC. Nous proposons un nouveau formalisme qui remplace les premier et troisième piliers de l'ARC traditionnel par une nouvelle métrique d'évaluation du regret de déviation adaptée au processus historique et à l'apprentissage continu, et discutons des approches possibles pour améliorer les deux autres piliers.