R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning
Created by
Haebom
Category
Empty
저자
Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
개요
본 논문은 대규모 추론 모델(LRM)의 추론 능력 향상을 위해 강화 학습(RL) 기반의 새로운 방법인 R1-Searcher를 제안합니다. 기존 LRM은 내부 지식에 의존하여 문제를 해결하는 경우가 많아 시의성이 중요하거나 지식 집약적인 질문에 대해 부정확하거나 환각 현상을 일으킬 수 있습니다. R1-Searcher는 LLM이 추론 과정 중 외부 검색 시스템을 자율적으로 호출하여 추가적인 지식에 접근할 수 있도록 하는 두 단계의 결과 기반 RL 접근 방식입니다. 콜드 스타트를 위한 프로세스 보상이나 증류 없이 RL만을 사용하며, 다양한 데이터셋과 기본 및 지시 모델 모두를 지원합니다. 실험 결과, 제안된 방법은 기존의 강력한 RAG 방법들보다 성능이 뛰어나며, 심지어 closed-source GPT-4o-mini를 능가하는 것으로 나타났습니다.