본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 강화 학습(RL) 기반의 새로운 추론 전략인 RL-of-Thoughts(RLoT)를 제안합니다. 기존의 Chain/Tree/Graph-of-Thought와 같은 추론 기법들은 수동으로 정의된 틀을 사용하여 유연성이 부족한 반면, RLoT는 경량의 RL 네비게이터 모델을 학습하여 문제 특성에 따라 적응적으로 추론 과정을 제어합니다. 인간의 인지 과정을 모방한 다섯 가지 기본 논리 블록을 설계하여, 네비게이터 모델은 이 블록들을 동적으로 조합하여 작업별 논리 구조를 생성합니다. 여러 LLM(GPT, Llama, Qwen, DeepSeek)과 추론 벤치마크(AIME, MATH, GPQA 등)에서의 실험 결과, RLoT는 기존 기법들보다 최대 13.4% 향상된 성능을 보였으며, 3,000개 미만의 파라미터로 100B 규모의 LLM에 필적하는 성능을 10B 미만의 LLM에서 달성했습니다. 또한, 특정 LLM-작업 쌍에서 학습된 모델은 다른 LLM과 작업에도 효과적으로 일반화되는 높은 전이성을 보여줍니다.