Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning

Created by
  • Haebom

저자

Qianyue Hao, Sibo Li, Jian Yuan, Yong Li

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 강화 학습(RL) 기반의 새로운 추론 전략인 RL-of-Thoughts(RLoT)를 제안합니다. 기존의 Chain/Tree/Graph-of-Thought와 같은 추론 기법들은 수동으로 정의된 틀을 사용하여 유연성이 부족한 반면, RLoT는 경량의 RL 네비게이터 모델을 학습하여 문제 특성에 따라 적응적으로 추론 과정을 제어합니다. 인간의 인지 과정을 모방한 다섯 가지 기본 논리 블록을 설계하여, 네비게이터 모델은 이 블록들을 동적으로 조합하여 작업별 논리 구조를 생성합니다. 여러 LLM(GPT, Llama, Qwen, DeepSeek)과 추론 벤치마크(AIME, MATH, GPQA 등)에서의 실험 결과, RLoT는 기존 기법들보다 최대 13.4% 향상된 성능을 보였으며, 3,000개 미만의 파라미터로 100B 규모의 LLM에 필적하는 성능을 10B 미만의 LLM에서 달성했습니다. 또한, 특정 LLM-작업 쌍에서 학습된 모델은 다른 LLM과 작업에도 효과적으로 일반화되는 높은 전이성을 보여줍니다.

시사점, 한계점

시사점:
강화학습을 통해 LLM의 추론 능력을 효과적으로 향상시키는 새로운 방법 제시
경량의 네비게이터 모델을 사용하여 계산 비용을 절감하면서 성능 향상 달성
문제 특성에 따라 적응적으로 추론 과정을 제어하여 유연성 증대
뛰어난 전이성으로 다양한 LLM과 작업에 적용 가능
소규모 LLM의 성능을 대규모 LLM 수준으로 향상시킴
한계점:
제안된 다섯 가지 기본 논리 블록의 일반성 및 한계에 대한 추가적인 연구 필요
네비게이터 모델의 학습 과정에서 발생할 수 있는 과적합 문제에 대한 고려 필요
다양한 유형의 추론 문제에 대한 일반화 성능 평가가 추가적으로 필요할 수 있음
현재 공개된 코드의 실제 구현 및 재현 가능성에 대한 추가적인 검증 필요
👍