Sign In

When Can Model-Free Reinforcement Learning be Enough for Thinking?

Created by
  • Haebom
Category
Empty

저자

Josiah P. Hanna, Nicholas E. Corrado

개요

본 논문은 모델 없는 강화 학습(RL)을 사용하여 추론과 같은 능력을 훈련하는 데 초점을 맞춘다. 특히, 보상을 생성하거나 외부 세계 상태를 변화시키지 않는 '사고'와 같은 행동의 발생에 주목한다. 이 논문은 모델 없는 RL이 보상 극대화를 위한 전략으로서 '사고'로 이어지는 조건을 이해하기 위해, 사고 마르코프 결정 과정(MDP)이라는 이론적 모델을 제시한다. 이 모델을 통해 정책 초기화의 중요성을 증명하고, 사고 행동이 정책 개선 단계를 수행하는 것과 동일함을 보인다. 또한, 오픈 소스 대규모 언어 모델(LLM)이 '사고' 행동을 유도하는 이론적 조건을 충족함을 보여준다. 마지막으로, 언어 생성 외 분야에서 '사고' 학습을 가능하게 하는 충분 조건을 제시하고, 다중 작업 사전 훈련과 지정된 사고 행동의 조합을 통해 비사고 에이전트에 비해 데이터 효율적인 RL을 달성하는 토이 도메인을 소개한다.

시사점, 한계점

모델 없는 RL에서 '사고'와 같은 행동의 발생을 이해하기 위한 이론적 모델(사고 MDP) 제시
정책 초기화가 '사고'의 발생 여부에 중요함을 증명
오픈 소스 LLM이 '사고' 행동을 유도하는 조건을 충족함을 이론적으로 설명
언어 생성 외 분야에서 '사고' 학습을 위한 충분 조건 제안 및 실험
한계점:
이론적 모델에 대한 추가적인 검증 필요
제시된 충분 조건에 대한 더 광범위한 실험 필요
토이 도메인의 일반화 가능성 제한적
👍