ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning
Created by
Haebom
Category
Empty
저자
Mingyang Chen, Tianpeng Li, Haoze Sun, Yijie Zhou, Chenzheng Zhu, Fan Yang, Zenan Zhou, Weipeng Chen, Haofen Wang, Jeff Z. Pan, Wen Zhang, Huajun Chen
개요
본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 새로운 프레임워크인 ReSearch를 제안합니다. ReSearch는 강화 학습을 통해 LLM이 외부 검색 과정을 활용하여 추론할 수 있도록 훈련하며, 추론 단계에 대한 어떠한 지도 데이터도 사용하지 않습니다. 검색 작업을 추론 과정의 필수적인 구성 요소로 취급하여, 언제 어떻게 검색을 수행할지에 대한 결정을 텍스트 기반 사고를 통해 안내하고, 검색 결과가 후속 추론에 영향을 미치도록 합니다. Qwen2.5-7B(-Instruct) 및 Qwen2.5-32B(-Instruct) 모델을 사용하여 ReSearch를 훈련하고 광범위한 실험을 수행한 결과, 하나의 데이터셋으로만 훈련되었음에도 다양한 벤치마크에서 강력한 일반화 성능을 보였으며, 강화 학습 과정에서 반성 및 자기 수정과 같은 고급 추론 능력을 자연스럽게 유도하는 것으로 나타났습니다.
시사점, 한계점
•
시사점:
◦
지도 데이터 없이 강화 학습만으로 LLM의 추론 능력과 외부 검색 과정 통합 향상.
◦
다양한 벤치마크에서 강력한 일반화 성능을 보임.
◦
강화 학습 과정에서 자연스럽게 고급 추론 능력(반성, 자기 수정)을 유도.
•
한계점:
◦
현재는 특정 LLM 모델(Qwen2.5)에 대한 실험 결과만 제시. 다른 LLM 모델에 대한 일반화 가능성 추가 연구 필요.
◦
사용된 데이터셋에 대한 자세한 설명 부족. 데이터셋의 특성이 모델 성능에 미치는 영향에 대한 분석 필요.
◦
실험 결과의 상세 내용 및 비교 대상 모델에 대한 정보 부족. 다른 추론 모델과의 비교 분석을 통해 ReSearch의 우수성을 더욱 명확히 밝힐 필요.