Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

Created by
  • Haebom

저자

Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han

개요

본 논문은 강화학습(RL)을 이용하여 대규모 언어 모델(LLM)이 추론 과정 중 실시간 검색을 통해 스스로 검색 쿼리를 생성하고, 검색 결과를 활용하여 추론하는 Search-R1 프레임워크를 제시합니다. Search-R1은 다회차 검색 상호작용을 통해 LLM 추론 경로를 최적화하며, 안정적인 RL 학습을 위해 검색 결과 토큰 마스킹 기법과 간단한 결과 기반 보상 함수를 사용합니다. 7개의 질의응답 데이터셋에서의 실험 결과, Search-R1은 기존 RAG 기법 대비 Qwen2.5-7B 모델에서 41%, Qwen2.5-3B 모델에서 20% 성능 향상을 보였습니다. 또한, RL 최적화 방법, LLM 선택, 검색 결과 길이 동역학에 대한 실험적 통찰력을 제공하며, 코드와 모델 체크포인트는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
강화학습을 활용하여 LLM의 검색 능력을 향상시키는 새로운 방법론 제시.
다회차 검색 상호작용 및 토큰 마스킹을 통한 안정적인 RL 학습 및 성능 향상 확인.
다양한 LLM과 데이터셋에 대한 실험 결과를 통해 일반화 가능성을 검증.
코드와 모델 공개를 통한 재현성 및 후속 연구 지원.
한계점:
특정 LLM과 데이터셋에 국한된 실험 결과. 다양한 LLM 및 데이터셋에 대한 추가 실험 필요.
결과 기반 보상 함수의 단순성으로 인한 성능 저하 가능성. 더욱 정교한 보상 함수 설계 필요.
검색 엔진의 특성에 대한 의존성. 다양한 검색 엔진에 대한 적용 및 성능 비교 필요.
👍