본 논문은 기존 강화학습(Reinforcement Learning, RL)의 마르코프 결정 과정(Markov Decision Process, MDP)을 자연어 기반 표현 공간으로 확장한 자연어 강화학습(Natural Language Reinforcement Learning, NLRL)을 제안합니다. NLRL은 과제 목표, 정책, 가치 함수, 벨만 방정식, 정책 반복 등 RL의 핵심 원리를 자연어로 재정의하고, 대규모 언어 모델(LLM)을 활용하여 프롬프팅 또는 기울기 기반 학습을 통해 RL과 유사한 정책 및 가치 개선을 달성합니다. 미로, 브레이크스루, 틱택토 게임에 대한 실험을 통해 NLRL 프레임워크의 효율성, 효과성 및 해석 가능성을 다양한 사용 사례에서 입증합니다.