대규모 언어 모델(LLM)은 정보 접근과 추론을 발전시켰지만, 정적 지식, 사실적 환각, 실시간 또는 특정 도메인 정보 검색 불가능성 등의 한계가 있다. Retrieval-Augmented Generation(RAG)은 외부 증거를 기반으로 모델 출력을 개선하지만, 기존 RAG 파이프라인은 단일 턴 방식이며, 검색과 추론에 대한 적응 제어가 부족하다. 에이전트 기반 검색은 LLM이 검색 환경과의 다단계 상호 작용을 통해 계획, 검색, 반성을 수행하도록 하여 이러한 한계를 해결한다. 강화 학습(RL)은 적응적이고 자기 개선적인 검색 동작을 위한 강력한 메커니즘을 제공한다. 본 논문은 RL 기반 에이전트 기반 검색에 대한 포괄적인 개요를 제공하며, RL의 기능적 역할, 최적화 전략, 적용 범위를 기준으로 연구 분야를 정리한다. 대표적인 방법, 평가 프로토콜, 응용 프로그램을 요약하고, 신뢰할 수 있고 확장 가능한 RL 기반 에이전트 기반 검색 시스템 구축에 대한 과제와 미래 방향을 논의한다.