본 논문은 기존 강화학습(RL)의 기본적인 토대들이 지속적 강화학습(continual reinforcement learning)의 목표에 반하는지를 질문하며, 마르코프 의사결정 과정(MDP) 형식, 최적 정책에 대한 집중, 기대 보상의 합을 주요 평가 지표로 사용하는 것, 그리고 다른 세 가지 기본 개념을 포괄하는 에피소드 기반 벤치마크 환경 등 기존 RL의 네 가지 기본적인 토대를 지적합니다. 저자는 이러한 토대들이 서로 상호 의존적이며 지속적 강화학습에 적합하지 않다고 주장하며, 지속적 학습 환경에 더 적합한 네 가지 대안적인 토대를 제시하고, 기존의 토대를 재고하고 대안을 제시하고 비판하며, 더 적합한 토대를 통해 새로운 알고리즘과 접근 방식을 개발하는 것을 촉구합니다.