본 논문은 강화학습(RL)의 세 가지 핵심 원칙(agency의 정의, 학습의 목표, reward 가설의 범위)에 대한 개념적 수정을 제안한다. 열린 종말 진화 이론에서 영감을 받은 틀을 제시하여 이 세 가지 "독단"을 재검토한다. 진화 역학이 개인의 일생 동안 살아있는 뇌에서 작용할 수 있다는 것을 먼저 확립하여 RL을 생물학적 학습 모델로서 관련성을 부여한다. 두 번째 독단(학습에 대한 적응보다는 탐색 관점)을 재검토하고, 진화적 통찰력을 활용하여 풍부하게 한다. 세 번째 독단(보상 가설의 한계)을 다루며, 진화적 적합성의 유추를 사용하여 스칼라 보상 대 다중 목표 논쟁을 조명한다. RL에서 탐색에 대한 실질적인 함의를 논의한 후, 가장 기본적인 문제인 agency에 대한 공식적인 설명의 부재를 다룬다. 진화 패러다임만으로는 agency 문제를 해결할 수 없지만, 생산적인 방향을 제시한다고 주장한다. 생명 기원 이론의 아이디어를 통합하여, 생물 시스템에서 agency와 자원 제약 강화 학습을 이해하기 위한 유망한 기반을 제공하는 유지와 복제의 열역학을 제시한다.