본 논문은 기존 강화학습의 틀이 지속적 강화학습(Continual Reinforcement Learning)에 적합하지 않다는 점을 지적하고 새로운 틀을 제시합니다. 기존 강화학습은 최적 정책을 찾으면 학습이 종료되는 반면, 지속적 강화학습은 학습이 끊임없이 지속되어야 합니다. 논문에서는 마르코프 결정 과정(Markov Decision Process), 시간에 무관한 인공물(atemporal artifacts)에 대한 집중, 기댓값 합으로써의 보상 측정, 그리고 이러한 세 가지 기반을 따르는 에피소드 기반 벤치마크 환경 등 기존 강화학습의 네 가지 기본 원칙이 지속적 학습의 목표와 상반된다고 주장합니다. 대안으로, 역사 과정(history process)을 수학적 형식으로, 그리고 지속적 학습에 적합한 새로운 편차 후회(deviation regret)를 평가 척도로 제시하며, 나머지 두 가지 기반을 벗어나는 접근 방식에 대해서도 논의합니다.