본 논문은 모델 없는 강화 학습(RL)을 사용하여 추론과 같은 능력을 훈련하는 데 초점을 맞춘다. 특히, 보상을 생성하거나 외부 세계 상태를 변화시키지 않는 '사고'와 같은 행동의 발생에 주목한다. 이 논문은 모델 없는 RL이 보상 극대화를 위한 전략으로서 '사고'로 이어지는 조건을 이해하기 위해, 사고 마르코프 결정 과정(MDP)이라는 이론적 모델을 제시한다. 이 모델을 통해 정책 초기화의 중요성을 증명하고, 사고 행동이 정책 개선 단계를 수행하는 것과 동일함을 보인다. 또한, 오픈 소스 대규모 언어 모델(LLM)이 '사고' 행동을 유도하는 이론적 조건을 충족함을 보여준다. 마지막으로, 언어 생성 외 분야에서 '사고' 학습을 가능하게 하는 충분 조건을 제시하고, 다중 작업 사전 훈련과 지정된 사고 행동의 조합을 통해 비사고 에이전트에 비해 데이터 효율적인 RL을 달성하는 토이 도메인을 소개한다.