본 논문은 대규모 추론 모델(LRM)의 사실 정확성을 높이기 위해, 강화 학습 기반의 검색 증강 생성(RAG) 모델인 ReaRAG를 제안한다. ReaRAG는 과도한 추론 단계를 피하고 다양한 질의를 탐색하며, 사전 정의된 행동 공간(검색 및 종료)에서 행동을 선택한다. '검색' 행동 시 RAG 엔진을 통해 질의를 실행하고 결과를 관찰하여 추론 과정을 안내하며, '종료' 행동이 선택될 때까지 반복한다. 제한된 추론 체인 길이를 통해 효율성을 높이고, 다단계 질의응답(QA) 작업에서 기존 기준 모델보다 성능이 우수하며, 오류 인식 및 추론 경로 수정 능력이 뛰어나다는 것을 보여준다.