ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning
Created by
Haebom
Category
Empty
저자
Mingyang Chen, Tianpeng Li, Haoze Sun, Yijie Zhou, Chenzheng Zhu, Haofen Wang, Jeff Z. Pan, Wen Zhang, Huajun Chen, Fan Yang, Zenan Zhou, Weipeng Chen
개요
본 논문은 외부 검색 과정과 추론을 통합하는 새로운 프레임워크인 ReSearch를 제안합니다. ReSearch는 강화 학습을 통해 대규모 언어 모델(LLM)이 검색을 통해 추론하도록 훈련하며, 추론 단계에 대한 어떠한 지도 데이터도 사용하지 않습니다. 검색 작업을 추론 체인의 필수 구성 요소로 취급하여 텍스트 기반 사고를 통해 언제 어떻게 검색을 수행할지 안내하고, 검색 결과가 후속 추론에 영향을 미치도록 합니다. Qwen2.5-7B(-Instruct) 및 Qwen2.5-32B(-Instruct) 모델을 사용하여 ReSearch를 훈련하고 광범위한 실험을 수행합니다. 하나의 데이터셋으로만 훈련되었음에도 불구하고 다양한 벤치마크에서 강력한 일반화 성능을 보여주며, 강화 학습 과정에서 반성 및 자기 수정과 같은 고급 추론 능력을 자연스럽게 유도함을 보여줍니다.