본 논문은 대규모 언어 모델(LLM)의 추론 및 텍스트 생성 효율성 향상을 위해 외부 지식 및 최신 정보 획득 방법을 제시합니다. 기존의 검색 엔진을 활용하는 방식의 한계를 극복하고자, 강화 학습(RL) 기반의 Search-R1 프레임워크를 소개합니다. Search-R1은 단계별 추론 과정에서 LLM이 자율적으로 다중 검색 쿼리를 생성하고, 검색 결과를 활용하여 추론 과정을 최적화합니다. 토큰 마스킹 기법과 간단한 결과 기반 보상 함수를 사용하여 안정적인 RL 학습을 수행합니다. 7개의 질의응답 데이터셋 실험 결과, Search-R1은 기존 RAG 기법 대비 Qwen2.5-7B 모델에서 41%, Qwen2.5-3B 모델에서 20% 성능 향상을 보였습니다. 또한, RL 최적화 방법, LLM 선택, 검색 결과 길이 동역학에 대한 실험적 분석 결과도 제시합니다. 코드와 모델 체크포인트는 깃허브에서 공개됩니다.