Sign In

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen

개요

본 논문은 대규모 추론 모델(LRM)의 추론 능력 향상을 위해 강화 학습(RL) 기반의 새로운 방법인 R1-Searcher를 제안합니다. 기존 LRM은 내부 지식에 의존하여 문제를 해결하는 경우가 많아 시의성이 중요하거나 지식 집약적인 질문에 대해 부정확하거나 환각 현상을 일으킬 수 있습니다. R1-Searcher는 LLM이 추론 과정 중 외부 검색 시스템을 자율적으로 호출하여 추가적인 지식에 접근할 수 있도록 하는 두 단계의 결과 기반 RL 접근 방식입니다. 콜드 스타트를 위한 프로세스 보상이나 증류 없이 RL만을 사용하며, 다양한 데이터셋과 기본 및 지시 모델 모두를 지원합니다. 실험 결과, 제안된 방법은 기존의 강력한 RAG 방법들보다 성능이 뛰어나며, 심지어 closed-source GPT-4o-mini를 능가하는 것으로 나타났습니다.

시사점, 한계점

시사점:
LLM의 추론 능력 향상을 위한 새로운 RL 기반 접근 방식 제시
외부 검색 시스템 활용으로 LLM의 지식 제한 극복
콜드 스타트를 위한 프로세스 보상이나 증류가 필요 없음
다양한 데이터셋 및 모델 지원으로 일반화 성능 우수
기존 RAG 방법 및 GPT-4o-mini를 능가하는 성능 달성
한계점:
R1-Searcher의 구체적인 알고리즘 및 구현 세부 사항에 대한 정보 부족
다양한 종류의 검색 시스템에 대한 적용성 및 성능 비교 분석 부족
대규모 실험 결과 및 다양한 도메인에 대한 일반화 성능 평가 부족
환각 현상 완화에 대한 정량적 평가 부족
👍