본 논문은 강화학습(RL)을 이용하여 대규모 언어 모델(LLM)이 추론 과정 중 실시간 검색을 통해 스스로 검색 쿼리를 생성하고, 검색 결과를 활용하여 추론하는 Search-R1 프레임워크를 제시합니다. Search-R1은 다회차 검색 상호작용을 통해 LLM 추론 경로를 최적화하며, 안정적인 RL 학습을 위해 검색 결과 토큰 마스킹 기법과 간단한 결과 기반 보상 함수를 사용합니다. 7개의 질의응답 데이터셋에서의 실험 결과, Search-R1은 기존 RAG 기법 대비 Qwen2.5-7B 모델에서 41%, Qwen2.5-3B 모델에서 20% 성능 향상을 보였습니다. 또한, RL 최적화 방법, LLM 선택, 검색 결과 길이 동역학에 대한 실험적 통찰력을 제공하며, 코드와 모델 체크포인트는 공개적으로 제공됩니다.