この論文は、強化学習(RL)の3つの重要な原則(エージェントの定義、学習の目標、補償仮説の範囲)の概念的な修正を提案します。進化論的観点からこれら3つの原則を見直し、生物学的学習モデルとしてRLの妥当性のために個体の一生の間に進化ダイナミクスが脳内で働くことができることを最初に主張する。 2番目の原則(学習の目標)については「探索ではなく適応」の観点を進化論的洞察力で豊かにし、3番目の原則(補償仮説の範囲)については進化的適合度の類推を通じてスカラー補償と多目的問題について議論を進める。 RLでの探索の実質的な意味合いを議論した後、最初の原則であるエージェントの定義に欠けている問題に対処します。進化論的パラダイムだけではエージェント問題を解決できないと主張し、生命起源理論では栄養分と複製の熱力学がagentとバイオシステムにおける資源制約強化学習を理解するための有望な基盤を提供すると提案する。