Este artículo analiza las diferencias entre la visión tradicional del aprendizaje por refuerzo (RL) y el aprendizaje por refuerzo continuo (CRL), y propone un nuevo formalismo adecuado para el CRL. Mientras que el RL tradicional detiene el aprendizaje una vez que encuentra una política óptima, el CRL apunta al aprendizaje continuo y la adaptación. Argumentamos que cuatro pilares del RL tradicional, a saber, los Procesos de Decisión de Markov (MDP), un enfoque en artefactos independientes del tiempo, una métrica de evaluación de la suma de recompensas esperadas y un entorno de referencia basado en episodios que sigue estos pilares, están en conflicto con los objetivos del CRL. Proponemos un nuevo formalismo que reemplaza el primer y tercer pilares del RL tradicional con una nueva métrica de evaluación del arrepentimiento por desviación adecuada para el proceso histórico y el aprendizaje continuo, y discutimos posibles enfoques para mejorar los otros dos pilares.