본 논문은 기존 강화학습(Reinforcement Learning, RL)의 전통적 관점과 지속적 강화학습(Continual Reinforcement Learning, CRL)의 차이점을 분석하고, CRL에 적합한 새로운 형식주의를 제안합니다. 기존 RL은 최적 정책을 찾으면 학습이 종료되는 반면, CRL은 지속적인 학습과 적응을 목표로 합니다. 논문에서는 마르코프 의사결정 과정(MDP), 시간에 무관한 인공물에 대한 초점, 기대 보상 합계 평가 지표, 그리고 이러한 기반을 따르는 에피소드 기반 벤치마크 환경 등 기존 RL의 네 가지 기반이 CRL의 목표와 상반된다고 주장합니다. 이에 따라 기존 RL의 첫 번째와 세 번째 기반을 역사 과정(history process)과 지속적 학습에 적합한 새로운 편차 후회(deviation regret) 평가 지표로 대체하는 새로운 형식주의를 제안하고, 나머지 두 기반을 개선하기 위한 가능한 접근 방식을 논의합니다.